登録して招待リンクを共有すると、動画再生報酬と紹介報酬を獲得できます。

検索結果 EmbodiedAI
EmbodiedAI コミュニティ
1つのキーワードが1つのコミュニティです。
コミュニティ作成
アカウント
見つかりません
EmbodiedAI を含む検索結果
🕶️ 自分の体の動きで一人称の世界を歩き回り、しかも「特定の場所に何があるか」を画像とポーズで指定して時間変化まで作れる——身体性のある一人称世界モデルAnchorWorldです。 タイトル: AnchorWorld: Embodied Egocentric World Simulation with View-based Evolution Customization URL: 📝 概要 AnchorWorldは、人間の全身モーションで操作する一人称動画を生成する世界モデルです。さらに「アンカービュー」で、特定の3D位置に何が存在し、どう時間変化するかを明示的に指定できます。 ❓ 解決する課題 既存の世界モデルは、一人称動画だけでは全身モーションの教師付けが難しく、環境も暗黙的にしか定義できませんでした。「自然な身体操作」と「局所的な世界カスタマイズ」の両方が欠けていたのです。 💡 方法論と提案手法 ・一人称では体の多くが見えないため、三人称動画を補助教師に使い、全身と環境の位置関係を学習します ・アンカーはRGB画像・6-DoF視点ポーズ・進化プロンプトの3要素で、特定位置の見た目と時間変化を指定します ・3D RoPEで複数アンカーを空間的に区別し、masked cross-attentionでアンカーごとのテキスト制御を実現します ・三人称→一人称→静的アンカー→動的進化、の4段階で段階的に学習します(Wan 2.2 TI2V 5B上に構築) 🎯 ユースケース VRの身体性アプリ、一人称ゲームの環境設計、身体性AIの学習シナリオ、局所制御つきのインタラクティブ動画生成などに使えます。 📊 実験結果 ・一人称静的シーンでCLIP-V 0.885、カメラ精度ATE 0.112mとPlayerOneなどを上回りました ・一人称動的シーンのテキスト整合(VideoAlign-TA)は0.717で、CaM-Egoの0.385を大きく超えました ・分布外のUEシーンや実世界でも、初期ビューとアンカーの重なりが少ない条件で強い汎化を示しました #WorldModel# #EmbodiedAI#
もっと見る
🗺️ 最先端のGPT-5でも、現実世界の空間タスクの成功率はわずか14.4%——。静止画を眺めて答えるだけでは測れない、AIエージェントの「能動的な空間推論」の弱さをあぶり出す新しいベンチマークが登場しました。 タイトル: SpatialWorld: Benchmarking Interactive Spatial Reasoning of Multimodal Agents in Real-World Tasks URL: 📝 概要 SpatialWorldは、マルチモーダルLLMが視覚のみの一人称視点で、3D環境を能動的に探索しながらタスクを解けるかを測るベンチマークです。屋内・屋外・デジタルゲームにわたる8つの異なるシミュレータを共通プロトコルで統合し、人手で作った760タスクで15の最先端モデルを評価しました。エージェントは事前に与えられた地図や正解の手順なしに、自分で見て、動いて、判断する必要があります。 ❓ 解決する課題 従来の空間推論ベンチマークは、静的なVQAや録画済み動画による受動的な評価に依存していました。しかしこれでは、エージェントが自ら視点を動かして視覚的な証拠を集め、部分的にしか見えない状況の中でその場で計画を立て直す、という現実世界に必要なインタラクティブな空間理解を測れません。静的なシーンを認識できることと、未知の空間で実際に動いて課題を解けることの間には、大きな隔たりがあったのです。 💡 方法論と提案手法 ・課題を視覚のみのPOMDP(部分観測マルコフ決定過程)として定式化します ・エージェントは自然言語のゴールと、ネイティブ解像度の一人称RGB画像1枚だけを受け取り、深度・地図・意味メタデータは一切与えられません ・行動はナビゲーション、視点制御、物体とのインタラクション、タスク完了を含むテキストベースの高レベルインターフェースで指示します ・屋内(AI2-THOR、ProcTHOR、VirtualHome)、屋外(CARLA、EmbodiedCity)、デジタルゲーム(Block3D、Snake3D、ルービックキューブ)の8バックエンドを統合します ・評価は途中の軌跡の一致ではなく、最終的な終端状態がゴールを満たしたかで判定し、人手で妥当性を確認します ・成功率に加え、人間の参照軌跡と比べたステップ効率も測ることで、効率の悪さも可視化します 🎯 ユースケース 家庭用ロボットや自律エージェントの空間能力を、実環境へ配備する前に統一的かつ公平に評価する基盤になります。ナビゲーションと物体操作を組み合わせた長期タスクのどこでつまずくのかを体系的に診断でき、空間推論モデルの改善に向けた厳密なテストベッドとして活用できます。 📊 実験結果 ・15の最先端モデルを評価し、物理タスクの成功率はGPT-5が14.4%、Qwen-3.5-397Bが12.2%、Gemini-3.1-Proが9.2%、Kimi-K2.5が9.2%にとどまりました ・デジタルゲームではGemini-3.1-Proが39.0%で最高、GPT-5が36.4%と続きました ・複雑さ別に見ると、インタラクションのみのタスクは平均50.2%だったのに対し、ナビゲーションのみは8.6%、両者を組み合わせた複合タスクはわずか4.2%まで急落しました ・成功率が近いモデルどうしでも効率スコアは大きく異なり、多くのモデルが試行錯誤に頼って動いている実態が明らかになりました ・環境ごとにモデルの順位が大きく入れ替わり、全カテゴリを支配する万能なモデルは存在しませんでした #AIエージェント# #SpatialReasoning#
もっと見る