WorldModel を X で検索 — Twitter ブラウザ

2026.06.13 13:30

🕶️ 自分の体の動きで一人称の世界を歩き回り、しかも「特定の場所に何があるか」を画像とポーズで指定して時間変化まで作れる——身体性のある一人称世界モデルAnchorWorldです。タイトル: AnchorWorld: Embodied Egocentric World Simulation with View-based Evolution Customization URL: 📝 概要 AnchorWorldは、人間の全身モーションで操作する一人称動画を生成する世界モデルです。さらに「アンカービュー」で、特定の3D位置に何が存在し、どう時間変化するかを明示的に指定できます。 ❓ 解決する課題既存の世界モデルは、一人称動画だけでは全身モーションの教師付けが難しく、環境も暗黙的にしか定義できませんでした。「自然な身体操作」と「局所的な世界カスタマイズ」の両方が欠けていたのです。 💡 方法論と提案手法・一人称では体の多くが見えないため、三人称動画を補助教師に使い、全身と環境の位置関係を学習します・アンカーはRGB画像・6-DoF視点ポーズ・進化プロンプトの3要素で、特定位置の見た目と時間変化を指定します・3D RoPEで複数アンカーを空間的に区別し、masked cross-attentionでアンカーごとのテキスト制御を実現します・三人称→一人称→静的アンカー→動的進化、の4段階で段階的に学習します（Wan 2.2 TI2V 5B上に構築） 🎯 ユースケース VRの身体性アプリ、一人称ゲームの環境設計、身体性AIの学習シナリオ、局所制御つきのインタラクティブ動画生成などに使えます。 📊 実験結果・一人称静的シーンでCLIP-V 0.885、カメラ精度ATE 0.112mとPlayerOneなどを上回りました・一人称動的シーンのテキスト整合（VideoAlign-TA）は0.717で、CaM-Egoの0.385を大きく超えました・分布外のUEシーンや実世界でも、初期ビューとアンカーの重なりが少ない条件で強い汎化を示しました #WorldModel# #EmbodiedAI#

0

コミュニティへ転送

cv usk@cv_usk

2026.06.14 07:22

操作に応じて映像を生み出す「動画ワールドモデル」、その実力を公平に測る統一ベンチマークが登場しました🎮 タイトル: WBench: A Comprehensive Multi-turn Benchmark for Interactive Video World Model Evaluation URL: 🎮 概要インタラクティブな動画ワールドモデルを包括的に評価する統一フレームワークです。289テストケース・1,058インタラクションターンで、テキスト・6-DoF姿勢・離散アクションという異なる操作方式のモデルを同じ土俵で比較できます。 ❓ 解決する課題インタラクティブなワールドモデルは急速に進歩する一方、能力を体系的に測る基準がありませんでした。既存ベンチマークは一部しかカバーできず、入力方式がモデルごとに違うため横並び比較も困難でした。 💡 方法論と提案手法評価は5つの次元で行います。・映像品質・設定への忠実性・インタラクションへの忠実性・一貫性・物理法則への整合性タスクはナビゲーション・被写体アクション・イベント編集・視点切り替えの4種。専門視覚モデルと大規模マルチモーダルモデルを組み合わせた22の自動指標を、人間の判断と照合して検証しています。 📊 実験結果最先端20モデルを分析した結果、すべての次元で強いモデルは1つも存在しないことが判明。各アプローチに特徴的な強み・弱みと、共通の難題が浮かび上がりました。 #ワールドモデル# #ベンチマーク#

0

コミュニティへ転送

cv usk@cv_usk

2026.06.15 21:41

🌍 「自己教師あり学習はいつ世界の真の構造を復元できるのか？」——その答えが“潜在変数がガウス分布のときだけ”だと数学的に証明した、LeCunらの理論研究です。タイトル: When Does LeJEPA Learn a World Model? URL: 💡 概要 LeJEPA（JEPA＋ガウス正則化SIGReg＋アライメント）が、非線形な観測から世界の潜在変数を「回転を除いて線形に」復元できる条件を理論的に解明しました。鍵は潜在がガウス分布でOU過程に従うことです。 ⚠️ 解決する課題表現が世界の真の自由度を歪めると、信頼できる計画や構成的汎化ができません。自己教師あり学習がいつ世界構造を証明可能に復元するのかは未解明でした。 🛠 方法論と核心・最適表現は潜在過程の「最も遅い特徴」を固有値順に抽出する・エルミート多項式とMehlerの公式により、ビュー間相関は非線形の次数dに対しρ^dで減衰・つまりアライメントはあらゆる非線形性を罰し、線形写像が唯一の最適解になる・線形可識別性が成り立てば、潜在空間での計画は真の世界と同一の最適行動を返す（制御にそのまま使える）・逆に「常に線形最適」を要求すると潜在分布はガウスでなければならない（唯一性） 📊 実験結果・SIGRegとVICRegは1024次元までR²>0.999で線形復元・一般化正規分布の掃引でR²はα=2（ガウス）で鋭くピーク・ピクセルからのロボット制御ではガウスOUでR²=0.95、非ガウスな実軌跡はR²≤0.5 ・制御コストはR²と単調に連動し、ガウス符号化器はオラクル級 #世界モデル# #自己教師あり学習#

0

コミュニティへ転送