空間推論を X で検索 — Twitter ブラウザ

2026.06.12 08:22

AIに空間を「言葉で考えさせる」のは逆効果かもしれません🧭 見えない視点を頭の中で“想像”させる新しいアプローチの登場です。タイトル: Imaginative Perception Tokens Enhance Spatial Reasoning in Multimodal Language Models URL: 🧭 概要視覚言語モデル（VLM）の空間推論を強化する「Imaginative Perception Tokens（IPT、想像的知覚トークン）」の提案です。空間的な論理を言語に押し込めるのではなく、「異なる配置で何が見えるか」という知覚を中間表現として保持します。 ❓ 解決する課題 VLMは、見えていない視点からの見え方、遮蔽された経路、複数の部分観測の統合といった空間推論が苦手です。従来はテキストの思考連鎖で解こうとしましたが、視覚的な推論を言語だけに押し込めるのは無理があり、性能が頭打ちでした。 💡 方法論と提案手法・統合型VLMのBAGELをバックボーンに、IPTによる教師あり学習で訓練します・3つのタスクを定式化：視点取得（PET）、経路追跡（PT）、多視点カウント（MVC）・約20,000例のデータセットを構築（正解・回答・評価指標つき）「もしこう動いたらこう見える」という知覚そのものを中間表現として扱うのが核心です。 📊 実験結果・多視点カウント（MVC）でIPT利用により精度が3.4%向上・経路追跡（PT）でクローズドソースモデルと競争力ある性能・IPT教師あり学習はテキスト思考連鎖（CoT）を上回る・逆にテキストCoTは空間推論性能を大きく劣化させると判明 #空間推論# #マルチモーダルLLM#

0

コミュニティへ転送

cv usk@cv_usk

2026.06.12 01:38

🗺️ 最先端のGPT-5でも、現実世界の空間タスクの成功率はわずか14.4%——。静止画を眺めて答えるだけでは測れない、AIエージェントの「能動的な空間推論」の弱さをあぶり出す新しいベンチマークが登場しました。タイトル: SpatialWorld: Benchmarking Interactive Spatial Reasoning of Multimodal Agents in Real-World Tasks URL: 📝 概要 SpatialWorldは、マルチモーダルLLMが視覚のみの一人称視点で、3D環境を能動的に探索しながらタスクを解けるかを測るベンチマークです。屋内・屋外・デジタルゲームにわたる8つの異なるシミュレータを共通プロトコルで統合し、人手で作った760タスクで15の最先端モデルを評価しました。エージェントは事前に与えられた地図や正解の手順なしに、自分で見て、動いて、判断する必要があります。 ❓ 解決する課題従来の空間推論ベンチマークは、静的なVQAや録画済み動画による受動的な評価に依存していました。しかしこれでは、エージェントが自ら視点を動かして視覚的な証拠を集め、部分的にしか見えない状況の中でその場で計画を立て直す、という現実世界に必要なインタラクティブな空間理解を測れません。静的なシーンを認識できることと、未知の空間で実際に動いて課題を解けることの間には、大きな隔たりがあったのです。 💡 方法論と提案手法・課題を視覚のみのPOMDP（部分観測マルコフ決定過程）として定式化します・エージェントは自然言語のゴールと、ネイティブ解像度の一人称RGB画像1枚だけを受け取り、深度・地図・意味メタデータは一切与えられません・行動はナビゲーション、視点制御、物体とのインタラクション、タスク完了を含むテキストベースの高レベルインターフェースで指示します・屋内（AI2-THOR、ProcTHOR、VirtualHome）、屋外（CARLA、EmbodiedCity）、デジタルゲーム（Block3D、Snake3D、ルービックキューブ）の8バックエンドを統合します・評価は途中の軌跡の一致ではなく、最終的な終端状態がゴールを満たしたかで判定し、人手で妥当性を確認します・成功率に加え、人間の参照軌跡と比べたステップ効率も測ることで、効率の悪さも可視化します 🎯 ユースケース家庭用ロボットや自律エージェントの空間能力を、実環境へ配備する前に統一的かつ公平に評価する基盤になります。ナビゲーションと物体操作を組み合わせた長期タスクのどこでつまずくのかを体系的に診断でき、空間推論モデルの改善に向けた厳密なテストベッドとして活用できます。 📊 実験結果・15の最先端モデルを評価し、物理タスクの成功率はGPT-5が14.4%、Qwen-3.5-397Bが12.2%、Gemini-3.1-Proが9.2%、Kimi-K2.5が9.2%にとどまりました・デジタルゲームではGemini-3.1-Proが39.0%で最高、GPT-5が36.4%と続きました・複雑さ別に見ると、インタラクションのみのタスクは平均50.2%だったのに対し、ナビゲーションのみは8.6%、両者を組み合わせた複合タスクはわずか4.2%まで急落しました・成功率が近いモデルどうしでも効率スコアは大きく異なり、多くのモデルが試行錯誤に頼って動いている実態が明らかになりました・環境ごとにモデルの順位が大きく入れ替わり、全カテゴリを支配する万能なモデルは存在しませんでした #AIエージェント# #SpatialReasoning#

0

1

2

コミュニティへ転送

屬於蕭の地方@Xiao_xiaoo_

2026.04.06 03:22

｛徵一日男友｝閨蜜說在推特可以約到戀愛感滿滿の泡地點：全臺灣都可以跑！時間：彼此有空的那天！需求原因：單身一個人空虛的有點久ㄌ條件：#按愛心# #底下開放報名留縣市# #只要有私訊都有機會被我抽到唷#

0

97

3.1K

95

コミュニティへ転送

郭宇 guoyu.eth@turingou

2026.05.24 16:58

晚上看完 NHK スペシャル节目，我在手机上刷到不少给阿嬷的情书中主题曲的视频，又想起前几天在推上看到批评这部电影价值观的帖子，现在闲下来，特别想写一篇文章说说我对时代价值的看法。电影中的事情，观念，道德背景，放在具体的时代讨论才有意义，有人说凭什么短暂的相处里，女性在婚姻中需要担负如此大的责任，放在现在，我自己肯定也是不同意的，思念不是真正的相处，更非真切的生活，但道义和责任却带来真实的苦难，在快速变化的现代社会，人们不会固执地选择这种生活，是因为我们有太多可选的自由，我退休后，写过一篇微博，说到「在自由如空气般轻盈的世界里，羽毛都会成为心中的重担」这便是现代生活最大的问题。把大家不会选择的生活拍成电影，人们却感动的一塌糊涂，这矛盾吗？当然不，因为大家从电影中看到的，以及感触到的，所怀念的，并非是那个无法选择的年代，而是人们如何在极度匮乏的选择中，塑造自我的命运，以最大的坚韧度过最困难的日子，这与男女无关，与权力无关，关乎的是人性中闪烁着的光辉，是激发光辉的意义，是心中内在的神性，也是最隐秘的伟大。这部影片让我想起富士电视台的「含泪活着 (泣きながら生きて」那是一部讲述留学生丁尚彪如何黑在日本 15 年，养活家人，赚钱供女儿去美国读大学的纪录片。这也让我想起我的母亲，年少时，她在矿山给开饭店的外婆打下手，为供她的弟妹上学，结婚后，她为了养育我，与父亲南下深圳打零工，父亲病重的数年，她一心照料已成植物人的父亲，为我的学业和生活费操劳，直到退休，她才能拥有一些属于自己的时间。面对苦难，华人有一种特殊的共感，并非我们天生爱吃苦，而是有太多的苦难降临在我们与我们祖辈的命运中。在不断变化的时代中，价值观在变化，道德也跟着变化。我上大学时，曾有一位同学与我说过我至今难以忘怀的一句话：「左右的天平上可以放太多东西」正如我们这个复杂的时代，人们不再与彼此分享生活和精神的空间，转向保守，在我参与拍摄的NHK スペシャル节目中，能看到移居到日本的中国人担心媒体如何刻画华人移民，在推文的评论下，更能看到日本民众对 NHK 取材立意的不满。左右的天平似乎无论如何，都重得无法再放下任何东西，因为任何一种中庸，都会被两方视为不忠。在这样一个时代，我们更需要「给阿嬷的情书」这种电影，它告诉左边的人们以信念，意义和尊重，它告诉右边的人们女性的力量与母亲的伟大。我们需要一些文字，电影，它们跨越族群，性别，民族，语言，它们告诉我们和我们的后代，到底是什么会让我们成为更好的人。

0

9

212

18

コミュニティへ転送