Benchmark を X で検索 — Twitter ブラウザ

検索結果 Benchmark

Benchmark コミュニティ

1つのキーワードが1つのコミュニティです。

コミュニティ作成

アカウント

見つかりません

Benchmark を含む検索結果

cv usk@cv_usk

2026.06.14 07:22

操作に応じて映像を生み出す「動画ワールドモデル」、その実力を公平に測る統一ベンチマークが登場しました🎮 タイトル: WBench: A Comprehensive Multi-turn Benchmark for Interactive Video World Model Evaluation URL: 🎮 概要インタラクティブな動画ワールドモデルを包括的に評価する統一フレームワークです。289テストケース・1,058インタラクションターンで、テキスト・6-DoF姿勢・離散アクションという異なる操作方式のモデルを同じ土俵で比較できます。 ❓ 解決する課題インタラクティブなワールドモデルは急速に進歩する一方、能力を体系的に測る基準がありませんでした。既存ベンチマークは一部しかカバーできず、入力方式がモデルごとに違うため横並び比較も困難でした。 💡 方法論と提案手法評価は5つの次元で行います。・映像品質・設定への忠実性・インタラクションへの忠実性・一貫性・物理法則への整合性タスクはナビゲーション・被写体アクション・イベント編集・視点切り替えの4種。専門視覚モデルと大規模マルチモーダルモデルを組み合わせた22の自動指標を、人間の判断と照合して検証しています。 📊 実験結果最先端20モデルを分析した結果、すべての次元で強いモデルは1つも存在しないことが判明。各アプローチに特徴的な強み・弱みと、共通の難題が浮かび上がりました。 #ワールドモデル# #ベンチマーク#

コミュニティへ転送

cv usk@cv_usk

2026.06.12 01:38

🗺️ 最先端のGPT-5でも、現実世界の空間タスクの成功率はわずか14.4%——。静止画を眺めて答えるだけでは測れない、AIエージェントの「能動的な空間推論」の弱さをあぶり出す新しいベンチマークが登場しました。タイトル: SpatialWorld: Benchmarking Interactive Spatial Reasoning of Multimodal Agents in Real-World Tasks URL: 📝 概要 SpatialWorldは、マルチモーダルLLMが視覚のみの一人称視点で、3D環境を能動的に探索しながらタスクを解けるかを測るベンチマークです。屋内・屋外・デジタルゲームにわたる8つの異なるシミュレータを共通プロトコルで統合し、人手で作った760タスクで15の最先端モデルを評価しました。エージェントは事前に与えられた地図や正解の手順なしに、自分で見て、動いて、判断する必要があります。 ❓ 解決する課題従来の空間推論ベンチマークは、静的なVQAや録画済み動画による受動的な評価に依存していました。しかしこれでは、エージェントが自ら視点を動かして視覚的な証拠を集め、部分的にしか見えない状況の中でその場で計画を立て直す、という現実世界に必要なインタラクティブな空間理解を測れません。静的なシーンを認識できることと、未知の空間で実際に動いて課題を解けることの間には、大きな隔たりがあったのです。 💡 方法論と提案手法・課題を視覚のみのPOMDP（部分観測マルコフ決定過程）として定式化します・エージェントは自然言語のゴールと、ネイティブ解像度の一人称RGB画像1枚だけを受け取り、深度・地図・意味メタデータは一切与えられません・行動はナビゲーション、視点制御、物体とのインタラクション、タスク完了を含むテキストベースの高レベルインターフェースで指示します・屋内（AI2-THOR、ProcTHOR、VirtualHome）、屋外（CARLA、EmbodiedCity）、デジタルゲーム（Block3D、Snake3D、ルービックキューブ）の8バックエンドを統合します・評価は途中の軌跡の一致ではなく、最終的な終端状態がゴールを満たしたかで判定し、人手で妥当性を確認します・成功率に加え、人間の参照軌跡と比べたステップ効率も測ることで、効率の悪さも可視化します 🎯 ユースケース家庭用ロボットや自律エージェントの空間能力を、実環境へ配備する前に統一的かつ公平に評価する基盤になります。ナビゲーションと物体操作を組み合わせた長期タスクのどこでつまずくのかを体系的に診断でき、空間推論モデルの改善に向けた厳密なテストベッドとして活用できます。 📊 実験結果・15の最先端モデルを評価し、物理タスクの成功率はGPT-5が14.4%、Qwen-3.5-397Bが12.2%、Gemini-3.1-Proが9.2%、Kimi-K2.5が9.2%にとどまりました・デジタルゲームではGemini-3.1-Proが39.0%で最高、GPT-5が36.4%と続きました・複雑さ別に見ると、インタラクションのみのタスクは平均50.2%だったのに対し、ナビゲーションのみは8.6%、両者を組み合わせた複合タスクはわずか4.2%まで急落しました・成功率が近いモデルどうしでも効率スコアは大きく異なり、多くのモデルが試行錯誤に頼って動いている実態が明らかになりました・環境ごとにモデルの順位が大きく入れ替わり、全カテゴリを支配する万能なモデルは存在しませんでした #AIエージェント# #SpatialReasoning#

コミュニティへ転送