操作に応じて映像を生み出す「動画ワールドモデル」、その実力を公平に測る統一ベンチマークが登場しました🎮
タイトル: WBench: A Comprehensive Multi-turn Benchmark for Interactive Video World Model Evaluation
URL:
🎮 概要
インタラクティブな動画ワールドモデルを包括的に評価する統一フレームワークです。289テストケース・1,058インタラクションターンで、テキスト・6-DoF姿勢・離散アクションという異なる操作方式のモデルを同じ土俵で比較できます。
❓ 解決する課題
インタラクティブなワールドモデルは急速に進歩する一方、能力を体系的に測る基準がありませんでした。既存ベンチマークは一部しかカバーできず、入力方式がモデルごとに違うため横並び比較も困難でした。
💡 方法論と提案手法
評価は5つの次元で行います。
・映像品質
・設定への忠実性
・インタラクションへの忠実性
・一貫性
・物理法則への整合性
タスクはナビゲーション・被写体アクション・イベント編集・視点切り替えの4種。専門視覚モデルと大規模マルチモーダルモデルを組み合わせた22の自動指標を、人間の判断と照合して検証しています。
📊 実験結果
最先端20モデルを分析した結果、すべての次元で強いモデルは1つも存在しないことが判明。各アプローチに特徴的な強み・弱みと、共通の難題が浮かび上がりました。
#
ワールドモデル# #
ベンチマーク#