AIに空間を「言葉で考えさせる」のは逆効果かもしれません🧭 見えない視点を頭の中で“想像”させる新しいアプローチの登場です。
タイトル: Imaginative Perception Tokens Enhance Spatial Reasoning in Multimodal Language Models
URL:
🧭 概要
視覚言語モデル(VLM)の空間推論を強化する「Imaginative Perception Tokens(IPT、想像的知覚トークン)」の提案です。空間的な論理を言語に押し込めるのではなく、「異なる配置で何が見えるか」という知覚を中間表現として保持します。
❓ 解決する課題
VLMは、見えていない視点からの見え方、遮蔽された経路、複数の部分観測の統合といった空間推論が苦手です。従来はテキストの思考連鎖で解こうとしましたが、視覚的な推論を言語だけに押し込めるのは無理があり、性能が頭打ちでした。
💡 方法論と提案手法
・統合型VLMのBAGELをバックボーンに、IPTによる教師あり学習で訓練します
・3つのタスクを定式化:視点取得(PET)、経路追跡(PT)、多視点カウント(MVC)
・約20,000例のデータセットを構築(正解・回答・評価指標つき)
「もしこう動いたらこう見える」という知覚そのものを中間表現として扱うのが核心です。
📊 実験結果
・多視点カウント(MVC)でIPT利用により精度が3.4%向上
・経路追跡(PT)でクローズドソースモデルと競争力ある性能
・IPT教師あり学習はテキスト思考連鎖(CoT)を上回る
・逆にテキストCoTは空間推論性能を大きく劣化させると判明
#
空間推論# #
マルチモーダルLLM#