注册并分享邀请链接,可获得视频播放与邀请奖励。

cv usk
@cv_usk
AI / Software Research Notes AI Agent, LLMOps, MLOps, Software Architecture
加入 May 2026
236 正在关注    211 粉丝
AIに空間を「言葉で考えさせる」のは逆効果かもしれません🧭 見えない視点を頭の中で“想像”させる新しいアプローチの登場です。 タイトル: Imaginative Perception Tokens Enhance Spatial Reasoning in Multimodal Language Models URL: 🧭 概要 視覚言語モデル(VLM)の空間推論を強化する「Imaginative Perception Tokens(IPT、想像的知覚トークン)」の提案です。空間的な論理を言語に押し込めるのではなく、「異なる配置で何が見えるか」という知覚を中間表現として保持します。 ❓ 解決する課題 VLMは、見えていない視点からの見え方、遮蔽された経路、複数の部分観測の統合といった空間推論が苦手です。従来はテキストの思考連鎖で解こうとしましたが、視覚的な推論を言語だけに押し込めるのは無理があり、性能が頭打ちでした。 💡 方法論と提案手法 ・統合型VLMのBAGELをバックボーンに、IPTによる教師あり学習で訓練します ・3つのタスクを定式化:視点取得(PET)、経路追跡(PT)、多視点カウント(MVC) ・約20,000例のデータセットを構築(正解・回答・評価指標つき) 「もしこう動いたらこう見える」という知覚そのものを中間表現として扱うのが核心です。 📊 実験結果 ・多視点カウント(MVC)でIPT利用により精度が3.4%向上 ・経路追跡(PT)でクローズドソースモデルと競争力ある性能 ・IPT教師あり学習はテキスト思考連鎖(CoT)を上回る ・逆にテキストCoTは空間推論性能を大きく劣化させると判明 #空間推論# #マルチモーダルLLM#
显示更多