cv usk(@cv_usk):AIに空間を「言葉で考えさせる」のは逆効果かもしれません🧭 見えない視点を頭の中で“想像”させる新しいアプローチの登場です。タイトル: Imaginative Perception Tokens Enhance Spatial Reasoning in Multimodal Language Models URL: https://t.co/BHcoKqFThx 🧭 概要視覚言語モデル（VLM）の空間推論を強化する「Imaginative Perception Tokens（IPT、想像的知覚トークン）」の提案です。空間的な論理を言語に押し込めるのではなく、「異なる配置で何が見えるか」という知覚を中間表現として保持します。 ❓ 解決する課題 VLMは、見えていない視点からの見え方、遮蔽された経路、複数の部分観測の統合といった空間推論が苦手です。従来はテキストの思考連鎖で解こうとしましたが、視覚的な推論を言語だけに押し込めるのは無理があり、性能が頭打ちでした。 💡 方法論と提案手法・統合型VLMのBAGELをバックボーンに、IPTによる教師あり学習で訓練します・3つのタスクを定式化：視点取得（PET）、経路追跡（PT）、多視点カウント（MVC）・約20,000例のデータセットを構築（正解・回答・評価指標つき）「もしこう動いたらこう見える」という知覚そのものを中間表現として扱うのが核心です。 📊 実験結果・多視点カウント（MVC）でIPT利用により精度が3.4%向上・経路追跡（PT）でクローズドソースモデルと競争力ある性能・IPT教師あり学習はテキスト思考連鎖（CoT）を上回る・逆にテキストCoTは空間推論性能を大きく劣化させると判明 #空間推論 #マルチモーダルLLM

2026.06.12 08:22

AIに空間を「言葉で考えさせる」のは逆効果かもしれません🧭 見えない視点を頭の中で“想像”させる新しいアプローチの登場です。タイトル: Imaginative Perception Tokens Enhance Spatial Reasoning in Multimodal Language Models URL: 🧭 概要視覚言語モデル（VLM）の空間推論を強化する「Imaginative Perception Tokens（IPT、想像的知覚トークン）」の提案です。空間的な論理を言語に押し込めるのではなく、「異なる配置で何が見えるか」という知覚を中間表現として保持します。 ❓ 解決する課題 VLMは、見えていない視点からの見え方、遮蔽された経路、複数の部分観測の統合といった空間推論が苦手です。従来はテキストの思考連鎖で解こうとしましたが、視覚的な推論を言語だけに押し込めるのは無理があり、性能が頭打ちでした。 💡 方法論と提案手法・統合型VLMのBAGELをバックボーンに、IPTによる教師あり学習で訓練します・3つのタスクを定式化：視点取得（PET）、経路追跡（PT）、多視点カウント（MVC）・約20,000例のデータセットを構築（正解・回答・評価指標つき）「もしこう動いたらこう見える」という知覚そのものを中間表現として扱うのが核心です。 📊 実験結果・多視点カウント（MVC）でIPT利用により精度が3.4%向上・経路追跡（PT）でクローズドソースモデルと競争力ある性能・IPT教師あり学習はテキスト思考連鎖（CoT）を上回る・逆にテキストCoTは空間推論性能を大きく劣化させると判明 #空間推論# #マルチモーダルLLM#

显示更多