泚册并分享邀请铟接可获埗视频播攟䞎邀请奖励。

cv usk
@cv_usk
AI / Software Research Notes AI Agent, LLMOps, MLOps, Software Architecture
加入 May 2026
238 正圚关泚    212 粉䞝
🗺 最先端のGPT-5でも、珟実䞖界の空間タスクの成功率はわずか14.4%——。静止画を眺めお答えるだけでは枬れない、AI゚ヌゞェントの「胜動的な空間掚論」の匱さをあぶり出す新しいベンチマヌクが登堎したした。 タむトル: SpatialWorld: Benchmarking Interactive Spatial Reasoning of Multimodal Agents in Real-World Tasks URL: 📝 抂芁 SpatialWorldは、マルチモヌダルLLMが芖芚のみの䞀人称芖点で、3D環境を胜動的に探玢しながらタスクを解けるかを枬るベンチマヌクです。屋内・屋倖・デゞタルゲヌムにわたる8぀の異なるシミュレヌタを共通プロトコルで統合し、人手で䜜った760タスクで15の最先端モデルを評䟡したした。゚ヌゞェントは事前に䞎えられた地図や正解の手順なしに、自分で芋お、動いお、刀断する必芁がありたす。 ❓ 解決する課題 埓来の空間掚論ベンチマヌクは、静的なVQAや録画枈み動画による受動的な評䟡に䟝存しおいたした。しかしこれでは、゚ヌゞェントが自ら芖点を動かしお芖芚的な蚌拠を集め、郚分的にしか芋えない状況の䞭でその堎で蚈画を立お盎す、ずいう珟実䞖界に必芁なむンタラクティブな空間理解を枬れたせん。静的なシヌンを認識できるこずず、未知の空間で実際に動いお課題を解けるこずの間には、倧きな隔たりがあったのです。 💡 方法論ず提案手法 ・課題を芖芚のみのPOMDP郚分芳枬マルコフ決定過皋ずしお定匏化したす ・゚ヌゞェントは自然蚀語のゎヌルず、ネむティブ解像床の䞀人称RGB画像1枚だけを受け取り、深床・地図・意味メタデヌタは䞀切䞎えられたせん ・行動はナビゲヌション、芖点制埡、物䜓ずのむンタラクション、タスク完了を含むテキストベヌスの高レベルむンタヌフェヌスで指瀺したす ・屋内AI2-THOR、ProcTHOR、VirtualHome、屋倖CARLA、EmbodiedCity、デゞタルゲヌムBlock3D、Snake3D、ルヌビックキュヌブの8バック゚ンドを統合したす ・評䟡は途䞭の軌跡の䞀臎ではなく、最終的な終端状態がゎヌルを満たしたかで刀定し、人手で劥圓性を確認したす ・成功率に加え、人間の参照軌跡ず比べたステップ効率も枬るこずで、効率の悪さも可芖化したす 🎯 ナヌスケヌス 家庭甚ロボットや自埋゚ヌゞェントの空間胜力を、実環境ぞ配備する前に統䞀的か぀公平に評䟡する基盀になりたす。ナビゲヌションず物䜓操䜜を組み合わせた長期タスクのどこで぀たずくのかを䜓系的に蚺断でき、空間掚論モデルの改善に向けた厳密なテストベッドずしお掻甚できたす。 📊 実隓結果 ・15の最先端モデルを評䟡し、物理タスクの成功率はGPT-5が14.4%、Qwen-3.5-397Bが12.2%、Gemini-3.1-Proが9.2%、Kimi-K2.5が9.2%にずどたりたした ・デゞタルゲヌムではGemini-3.1-Proが39.0%で最高、GPT-5が36.4%ず続きたした ・耇雑さ別に芋るず、むンタラクションのみのタスクは平均50.2%だったのに察し、ナビゲヌションのみは8.6%、䞡者を組み合わせた耇合タスクはわずか4.2%たで急萜したした ・成功率が近いモデルどうしでも効率スコアは倧きく異なり、倚くのモデルが詊行錯誀に頌っお動いおいる実態が明らかになりたした ・環境ごずにモデルの順䜍が倧きく入れ替わり、党カテゎリを支配する䞇胜なモデルは存圚したせんでした #AI゚ヌゞェント# #SpatialReasoning#
星瀺曎倚