マルチモーダルLLM を X で検索

2026.06.12 11:35

製造業のAI活用、つまずきの本当の原因は「目（視覚）」ではなく「知識」でした🏭 18種類の最先端モデルを徹底検証して、その事実を突き止めた研究です。タイトル: FORGE: Fine-grained Multimodal Evaluation for Manufacturing Scenarios URL: 🏭 概要本研究は、製造現場でマルチモーダルLLM（MLLM）がどこまで実用に耐えるかを、厳密に測るための評価フレームワーク「FORGE」を提案しています。2D画像と3D点群（point cloud）を組み合わせ、型番などの細かいドメイン情報を付与した高品質なデータセットを構築し、18種類の最先端MLLMを横断的に評価しました。 ❓ 解決する課題製造業はAI活用を急速に進めていますが、その性能を正しく測る基盤が追いついていませんでした。・製造現場の高品質なマルチモーダルデータ（実機画像や3D形状）は希少で、評価用データが不足しています・既存データセットは、型番・構造的な欠陥・組立の正誤といった製造特有の細粒度な意味情報を欠いていますそのため、現行のMLLM評価は実際の製造業の要求を反映できていませんでした。 💡 方法論と提案手法 FORGEは、現実的な条件で能力を測るために設計されています。・実世界の2D画像と3D点群を含む高品質なマルチモーダルデータで構成します・正確な型番を含む、製造特有の細粒度ドメイン意味アノテーションを付与します・評価する中核タスクは3つです・ワークピース検証（対象部品が正しいものか）・構造表面検査（表面の欠陥や状態の確認）・組立検証（組み付けが正しく行われているか） 🌍 ユースケース / 実験結果検証から、実務に直結する重要な知見が得られました。・評価したMLLM群の間で、性能に大きなギャップが存在することが判明しました・従来の想定に反し、視覚的グラウンディング（画像中の対象を特定する力）はボトルネックの本質ではありませんでした・真のボトルネックは「ドメイン固有知識の不足」であると結論づけられました・この知見を裏付けるように、コンパクトな3Bパラメータのモデルを教師ありファインチューニングしたところ、未知の製造シナリオで最大90.8%の相対精度改善を達成しました巨大な汎用モデルに頼るより、小型モデルを自社の現場データで鍛える方が、検査や品質管理で現実的な解になり得ます。 #製造業AI# #MLLM#

0

コミュニティへ転送

cv usk@cv_usk

2026.06.12 01:38

🗺️ 最先端のGPT-5でも、現実世界の空間タスクの成功率はわずか14.4%——。静止画を眺めて答えるだけでは測れない、AIエージェントの「能動的な空間推論」の弱さをあぶり出す新しいベンチマークが登場しました。タイトル: SpatialWorld: Benchmarking Interactive Spatial Reasoning of Multimodal Agents in Real-World Tasks URL: 📝 概要 SpatialWorldは、マルチモーダルLLMが視覚のみの一人称視点で、3D環境を能動的に探索しながらタスクを解けるかを測るベンチマークです。屋内・屋外・デジタルゲームにわたる8つの異なるシミュレータを共通プロトコルで統合し、人手で作った760タスクで15の最先端モデルを評価しました。エージェントは事前に与えられた地図や正解の手順なしに、自分で見て、動いて、判断する必要があります。 ❓ 解決する課題従来の空間推論ベンチマークは、静的なVQAや録画済み動画による受動的な評価に依存していました。しかしこれでは、エージェントが自ら視点を動かして視覚的な証拠を集め、部分的にしか見えない状況の中でその場で計画を立て直す、という現実世界に必要なインタラクティブな空間理解を測れません。静的なシーンを認識できることと、未知の空間で実際に動いて課題を解けることの間には、大きな隔たりがあったのです。 💡 方法論と提案手法・課題を視覚のみのPOMDP（部分観測マルコフ決定過程）として定式化します・エージェントは自然言語のゴールと、ネイティブ解像度の一人称RGB画像1枚だけを受け取り、深度・地図・意味メタデータは一切与えられません・行動はナビゲーション、視点制御、物体とのインタラクション、タスク完了を含むテキストベースの高レベルインターフェースで指示します・屋内（AI2-THOR、ProcTHOR、VirtualHome）、屋外（CARLA、EmbodiedCity）、デジタルゲーム（Block3D、Snake3D、ルービックキューブ）の8バックエンドを統合します・評価は途中の軌跡の一致ではなく、最終的な終端状態がゴールを満たしたかで判定し、人手で妥当性を確認します・成功率に加え、人間の参照軌跡と比べたステップ効率も測ることで、効率の悪さも可視化します 🎯 ユースケース家庭用ロボットや自律エージェントの空間能力を、実環境へ配備する前に統一的かつ公平に評価する基盤になります。ナビゲーションと物体操作を組み合わせた長期タスクのどこでつまずくのかを体系的に診断でき、空間推論モデルの改善に向けた厳密なテストベッドとして活用できます。 📊 実験結果・15の最先端モデルを評価し、物理タスクの成功率はGPT-5が14.4%、Qwen-3.5-397Bが12.2%、Gemini-3.1-Proが9.2%、Kimi-K2.5が9.2%にとどまりました・デジタルゲームではGemini-3.1-Proが39.0%で最高、GPT-5が36.4%と続きました・複雑さ別に見ると、インタラクションのみのタスクは平均50.2%だったのに対し、ナビゲーションのみは8.6%、両者を組み合わせた複合タスクはわずか4.2%まで急落しました・成功率が近いモデルどうしでも効率スコアは大きく異なり、多くのモデルが試行錯誤に頼って動いている実態が明らかになりました・環境ごとにモデルの順位が大きく入れ替わり、全カテゴリを支配する万能なモデルは存在しませんでした #AIエージェント# #SpatialReasoning#

0

1

2

コミュニティへ転送

cv usk@cv_usk

2026.06.12 08:22

AIに空間を「言葉で考えさせる」のは逆効果かもしれません🧭 見えない視点を頭の中で“想像”させる新しいアプローチの登場です。タイトル: Imaginative Perception Tokens Enhance Spatial Reasoning in Multimodal Language Models URL: 🧭 概要視覚言語モデル（VLM）の空間推論を強化する「Imaginative Perception Tokens（IPT、想像的知覚トークン）」の提案です。空間的な論理を言語に押し込めるのではなく、「異なる配置で何が見えるか」という知覚を中間表現として保持します。 ❓ 解決する課題 VLMは、見えていない視点からの見え方、遮蔽された経路、複数の部分観測の統合といった空間推論が苦手です。従来はテキストの思考連鎖で解こうとしましたが、視覚的な推論を言語だけに押し込めるのは無理があり、性能が頭打ちでした。 💡 方法論と提案手法・統合型VLMのBAGELをバックボーンに、IPTによる教師あり学習で訓練します・3つのタスクを定式化：視点取得（PET）、経路追跡（PT）、多視点カウント（MVC）・約20,000例のデータセットを構築（正解・回答・評価指標つき）「もしこう動いたらこう見える」という知覚そのものを中間表現として扱うのが核心です。 📊 実験結果・多視点カウント（MVC）でIPT利用により精度が3.4%向上・経路追跡（PT）でクローズドソースモデルと競争力ある性能・IPT教師あり学習はテキスト思考連鎖（CoT）を上回る・逆にテキストCoTは空間推論性能を大きく劣化させると判明 #空間推論# #マルチモーダルLLM#

0

コミュニティへ転送