3D生成を X で検索 — Twitter ブラウザ

2026.06.16 21:39

🧊 1枚の画像から3Dを作るとき、「見えている面は正確だが裏側は作れない」か「完全だが入力とズレる」かの二択でした。World Tracingは、ピクセルごとに3D点を層状に積み上げて、見える面と隠れた面を同時に手に入れます。タイトル: World Tracing: Generative Pixel-Aligned Geometry Beyond the Visible URL: 🔍 概要 World Tracingは、各ピクセルに対しカメラ空間の3D点を順序付きでL個積層する表現です。第0層が見える表面、深い層が前景の裏に隠れた面との前後交差を記録し、忠実な再構成と生成的な補完を1つの層状問題として統合します。 ❓ 解決する課題従来のimage-to-3Dには根本的なトレードオフがありました。・深度推定器はピクセルに正確だが、見える表面で止まる・生成3Dモデルは完全だが、正準座標で動くため入力とズレる World Tracingは「見える面を正確に再構成しつつ見えない面をもっともらしく生成する」忠実な生成として定式化します。 💡 方法論と提案手法中核は17億パラメータの拡散トランスフォーマWT-DiTです。・層内・レイ方向・グローバルの3方向に因子化したアテンションで、深度順序と前後の整合を保つ・第0層は画像に制約される再構成的、深い層は生成的という非対称性に対し、層ごとにノイズ量を変える混合ノイズスケジュールを導入・多層（3Dアセット）と単層（RGBD写真）の教師を同時に使える混合学習 🎯 ユースケース・テキスト駆動の3Dシーン編集（ピクセル整列なので再学習なしのクローズドフォーム合成）・完全な裏側形状をメモリに使う、ジオメトリ条件付きの新視点ビデオ生成・TRELLISと組み合わせ、入力に正しく再投影される忠実なメッシュ生成 📊 実験結果オブジェクト・シーン・動的の各ベンチで既存手法を上回りました。・オブジェクト可視深度MAE 0.0149（VGGT 0.0257）・完全形状F-score@0.05 0.549（TRELLIS 0.204）・シーンMAE 0.0102、動的クリップChamfer L2 0.0105で最良 #3D生成# #CV#

0

コミュニティへ転送

cv usk@cv_usk

2026.06.15 10:51

🪑 画像に物を「3Dの向きと位置まで指定して」自然に挿入。テキストでは曖昧、パラメータでは難しかった3D姿勢制御を、視覚プロキシの分解で解いた手法DIRECTです。タイトル: Direct 3D-Aware Object Insertion via Decomposed Visual Proxies URL: 📝 概要 DIRECTは、参照オブジェクトを画像へ挿入する際に、3Dの姿勢と位置を明示的に制御できる拡散ベースの手法です。挿入条件を幾何・外観・文脈の3つに分解し、独立した経路で注入します。 ❓ 解決する課題既存の挿入手法は2Dインペインティングとして定式化され、3D姿勢を制御できませんでした。テキスト誘導は空間的に曖昧、パラメトリックな3D手法は抽象パラメータを正しい幾何投影へ翻訳できない、という限界がありました。 💡 方法論と提案手法・ユーザーが操作する3Dプロキシを目標姿勢でレンダリングし幾何ガイダンスを得ます・外観（参照の高忠実度な見た目）と文脈（背景の意味）を、別々のLoRAと位置埋め込みで独立注入し特徴のもつれを防ぎます・TRELLISで画像から粗い3Dを生成し、VGGTと3D Gaussian Splattingで姿勢を精緻化します・FLUX.1-Fill上に構築し、形状分解マスク拡張と漸進的解像度学習で過学習を防ぎます 🎯 ユースケースバーチャルステージング、EC商品撮影、精密な空間制御が要るクリエイティブ制作、フォトリアルなAR/VRコンテンツ生成などに使えます。 📊 実験結果・FLUXベースでPSNR 23.09、LPIPS 0.147、マッチング誤差17.8と、ベースラインを全指標で上回りました・0°〜180°の大きな姿勢変化でも安定し、3D再構成の劣化にも頑健に細部を保持しました・ハイブリッドデータ学習でCLIP-Iが0.904→0.943に向上しました・対称オブジェクトの向き付けでは、RGB幾何ガイダンスが法線マップを上回ることも示しました #3DGeneration# #ImageEditing#

0

コミュニティへ転送

cv usk@cv_usk

2026.06.13 09:29

🏠 テキストや画像で家具を指定するだけで、スタイルの揃った3D屋内シーンを自動生成。しかもMMGDreamer比で約85%高速です。タイトル: FlowScene: Style-Consistent Indoor Scene Generation with Multimodal Graph Rectified Flow URL: 📝 概要 FlowSceneは、テキストと画像を融合したマルチモーダルなシーングラフから、高忠実度の3D屋内シーンを生成する手法です。配置・形状・テクスチャの3ブランチを、直線的なRectified Flowで同時に生成し、シーン全体でスタイルの一貫性を保ちます。 ❓ 解決する課題言語駆動の検索型はオブジェクト単位の制御やスタイル一貫性に弱く、グラフベース型は高品質なテクスチャ生成が苦手でした。FlowSceneはこの両者の弱点を同時に解消します。 💡 方法論と提案手法・ノードがテキスト記述と画像特徴を融合できるマルチモーダルグラフを入力にします（テキストのみ・画像のみ・混在に対応）・サンプリング中にノード情報を密に交換するInfoExchangeUnitで、個別条件と全体条件を両立させます・配置（3Dボックス）、形状（VQ-VAE潜在）、テクスチャ（幾何にアンカー）を独立デノイザで生成します・テクスチャは幾何を固定したまま外観だけをデノイズし、テキストのみのノードにもスタイル一貫したテクスチャを合成します 🎯 ユースケースインテリアデザインや製造での対話的なシーン設計、VR/ARコンテンツ制作、ロボティクスのシミュレーション環境づくりなどに使えます。 📊 実験結果・FID（寝室）が42.38→35.01とMMGDreamer比17.4%改善・CLIPScore 0.2386で全手法中最高、スタイル一貫性のユーザー評価も8.72/10 ・推論時間はテクスチャなしで6.83秒と、MMGDreamerの45.34秒より約85%高速・ナイトスタンドの最小マッチング距離を43.90%改善するなど、オブジェクト品質も向上しました #3DGeneration# #GenerativeAI#

0

コミュニティへ転送

cv usk@cv_usk

2026.06.13 13:30

🕶️ 自分の体の動きで一人称の世界を歩き回り、しかも「特定の場所に何があるか」を画像とポーズで指定して時間変化まで作れる——身体性のある一人称世界モデルAnchorWorldです。タイトル: AnchorWorld: Embodied Egocentric World Simulation with View-based Evolution Customization URL: 📝 概要 AnchorWorldは、人間の全身モーションで操作する一人称動画を生成する世界モデルです。さらに「アンカービュー」で、特定の3D位置に何が存在し、どう時間変化するかを明示的に指定できます。 ❓ 解決する課題既存の世界モデルは、一人称動画だけでは全身モーションの教師付けが難しく、環境も暗黙的にしか定義できませんでした。「自然な身体操作」と「局所的な世界カスタマイズ」の両方が欠けていたのです。 💡 方法論と提案手法・一人称では体の多くが見えないため、三人称動画を補助教師に使い、全身と環境の位置関係を学習します・アンカーはRGB画像・6-DoF視点ポーズ・進化プロンプトの3要素で、特定位置の見た目と時間変化を指定します・3D RoPEで複数アンカーを空間的に区別し、masked cross-attentionでアンカーごとのテキスト制御を実現します・三人称→一人称→静的アンカー→動的進化、の4段階で段階的に学習します（Wan 2.2 TI2V 5B上に構築） 🎯 ユースケース VRの身体性アプリ、一人称ゲームの環境設計、身体性AIの学習シナリオ、局所制御つきのインタラクティブ動画生成などに使えます。 📊 実験結果・一人称静的シーンでCLIP-V 0.885、カメラ精度ATE 0.112mとPlayerOneなどを上回りました・一人称動的シーンのテキスト整合（VideoAlign-TA）は0.717で、CaM-Egoの0.385を大きく超えました・分布外のUEシーンや実世界でも、初期ビューとアンカーの重なりが少ない条件で強い汎化を示しました #WorldModel# #EmbodiedAI#

0

コミュニティへ転送

cv usk@cv_usk

2026.06.16 21:38

🏠 「文章で部屋を説明したら、ロボットがそのまま動かせる物理シーンが丸ごと出てくる」——そんなシステムが ICML 2026 Spotlight に登場しました。MITとToyota Research Instituteの研究です。タイトル: nepfaff/scenesmith（SceneSmith） URL: 🏠 概要 SceneSmithは、自然言語の説明文から、物理シミュレーションにそのまま使える屋内シーンを自動生成するエージェント型システムです。家具・壁掛けの鏡や絵画・天井のシャンデリア・机の上の小物まで、質量や慣性といった物理特性を備えた形で生成され、ロボットの学習や評価に直接使えます。 ❓ 解決する課題ロボットシミュレーション向けのリアルな屋内シーンは、これまで手作業のモデリングや面倒な配置作業が必要で、大規模な評価・学習のボトルネックでした。SceneSmithはテキストから多様で文脈的に一貫したシーンを自動生成し、この手間を解消します。 💡 方法論と提案手法シーン生成は5段階の逐次パイプラインで進みます。・フロアプラン生成（壁や床のレイアウト）・大型家具の配置・壁掛けオブジェクト（鏡、絵画、棚、時計）・天井設備（シャンデリア、ペンダントライト、シーリングファン）・操作可能な小物各ステージ後にチェックポイントを自動保存し、途中から再開・分岐できます。シーン推論やタスク分解にはVLMエージェント（GPT-5）を使います。 🎯 ユースケースと技術・3Dアセットは高品質なSAM3D（推奨）やHunyuan3D-2で生成、HSSDやObjaverseからの取得にも対応・AmbientCGのPBRマテリアルをCLIPの意味検索で適用し、ArtVIPやPartNet-Mobilityの関節付き可動オブジェクトも扱える・出力はDrake形式に加え、MuJoCoやUSD・Isaac Simへエクスポート可能 📊 注目ポイント・「ボウルから果物を見つけて皿に置く」のようなタスクから、制約付きの複数シーンを自動生成しロボット評価まで支援・151語のプロンプトからコミュニティセンターを生成し、卓球台の近くにラケットとボールを置くなど文脈推論まで実現・複数GPUへ分散し、bubblewrapでGPUを隔離してレンダリングのOOMを防止 #ロボティクス# #シーン生成#