🗺️ 最先端のGPT-5でも、現実世界の空間タスクの成功率はわずか14.4%——。静止画を眺めて答えるだけでは測れない、AIエージェントの「能動的な空間推論」の弱さをあぶり出す新しいベンチマークが登場しました。
タイトル: SpatialWorld: Benchmarking Interactive Spatial Reasoning of Multimodal Agents in Real-World Tasks
URL:
📝 概要
SpatialWorldは、マルチモーダルLLMが視覚のみの一人称視点で、3D環境を能動的に探索しながらタスクを解けるかを測るベンチマークです。屋内・屋外・デジタルゲームにわたる8つの異なるシミュレータを共通プロトコルで統合し、人手で作った760タスクで15の最先端モデルを評価しました。エージェントは事前に与えられた地図や正解の手順なしに、自分で見て、動いて、判断する必要があります。
❓ 解決する課題
従来の空間推論ベンチマークは、静的なVQAや録画済み動画による受動的な評価に依存していました。しかしこれでは、エージェントが自ら視点を動かして視覚的な証拠を集め、部分的にしか見えない状況の中でその場で計画を立て直す、という現実世界に必要なインタラクティブな空間理解を測れません。静的なシーンを認識できることと、未知の空間で実際に動いて課題を解けることの間には、大きな隔たりがあったのです。
💡 方法論と提案手法
・課題を視覚のみのPOMDP(部分観測マルコフ決定過程)として定式化します
・エージェントは自然言語のゴールと、ネイティブ解像度の一人称RGB画像1枚だけを受け取り、深度・地図・意味メタデータは一切与えられません
・行動はナビゲーション、視点制御、物体とのインタラクション、タスク完了を含むテキストベースの高レベルインターフェースで指示します
・屋内(AI2-THOR、ProcTHOR、VirtualHome)、屋外(CARLA、EmbodiedCity)、デジタルゲーム(Block3D、Snake3D、ルービックキューブ)の8バックエンドを統合します
・評価は途中の軌跡の一致ではなく、最終的な終端状態がゴールを満たしたかで判定し、人手で妥当性を確認します
・成功率に加え、人間の参照軌跡と比べたステップ効率も測ることで、効率の悪さも可視化します
🎯 ユースケース
家庭用ロボットや自律エージェントの空間能力を、実環境へ配備する前に統一的かつ公平に評価する基盤になります。ナビゲーションと物体操作を組み合わせた長期タスクのどこでつまずくのかを体系的に診断でき、空間推論モデルの改善に向けた厳密なテストベッドとして活用できます。
📊 実験結果
・15の最先端モデルを評価し、物理タスクの成功率はGPT-5が14.4%、Qwen-3.5-397Bが12.2%、Gemini-3.1-Proが9.2%、Kimi-K2.5が9.2%にとどまりました
・デジタルゲームではGemini-3.1-Proが39.0%で最高、GPT-5が36.4%と続きました
・複雑さ別に見ると、インタラクションのみのタスクは平均50.2%だったのに対し、ナビゲーションのみは8.6%、両者を組み合わせた複合タスクはわずか4.2%まで急落しました
・成功率が近いモデルどうしでも効率スコアは大きく異なり、多くのモデルが試行錯誤に頼って動いている実態が明らかになりました
・環境ごとにモデルの順位が大きく入れ替わり、全カテゴリを支配する万能なモデルは存在しませんでした
#
AIエージェント# #
SpatialReasoning#