🏠 「文章で部屋を説明したら、ロボットがそのまま動かせる物理シーンが丸ごと出てくる」——そんなシステムが ICML 2026 Spotlight に登場しました。MITとToyota Research Instituteの研究です。
タイトル: nepfaff/scenesmith(SceneSmith)
URL:
🏠 概要
SceneSmithは、自然言語の説明文から、物理シミュレーションにそのまま使える屋内シーンを自動生成するエージェント型システムです。家具・壁掛けの鏡や絵画・天井のシャンデリア・机の上の小物まで、質量や慣性といった物理特性を備えた形で生成され、ロボットの学習や評価に直接使えます。
❓ 解決する課題
ロボットシミュレーション向けのリアルな屋内シーンは、これまで手作業のモデリングや面倒な配置作業が必要で、大規模な評価・学習のボトルネックでした。SceneSmithはテキストから多様で文脈的に一貫したシーンを自動生成し、この手間を解消します。
💡 方法論と提案手法
シーン生成は5段階の逐次パイプラインで進みます。
・フロアプラン生成(壁や床のレイアウト)
・大型家具の配置
・壁掛けオブジェクト(鏡、絵画、棚、時計)
・天井設備(シャンデリア、ペンダントライト、シーリングファン)
・操作可能な小物
各ステージ後にチェックポイントを自動保存し、途中から再開・分岐できます。シーン推論やタスク分解にはVLMエージェント(GPT-5)を使います。
🎯 ユースケースと技術
・3Dアセットは高品質なSAM3D(推奨)やHunyuan3D-2で生成、HSSDやObjaverseからの取得にも対応
・AmbientCGのPBRマテリアルをCLIPの意味検索で適用し、ArtVIPやPartNet-Mobilityの関節付き可動オブジェクトも扱える
・出力はDrake形式に加え、MuJoCoやUSD・Isaac Simへエクスポート可能
📊 注目ポイント
・「ボウルから果物を見つけて皿に置く」のようなタスクから、制約付きの複数シーンを自動生成しロボット評価まで支援
・151語のプロンプトからコミュニティセンターを生成し、卓球台の近くにラケットとボールを置くなど文脈推論まで実現
・複数GPUへ分散し、bubblewrapでGPUを隔離してレンダリングのOOMを防止
#
ロボティクス# #
シーン生成#