🪑 画像に物を「3Dの向きと位置まで指定して」自然に挿入。テキストでは曖昧、パラメータでは難しかった3D姿勢制御を、視覚プロキシの分解で解いた手法DIRECTです。
タイトル: Direct 3D-Aware Object Insertion via Decomposed Visual Proxies
URL:
📝 概要
DIRECTは、参照オブジェクトを画像へ挿入する際に、3Dの姿勢と位置を明示的に制御できる拡散ベースの手法です。挿入条件を幾何・外観・文脈の3つに分解し、独立した経路で注入します。
❓ 解決する課題
既存の挿入手法は2Dインペインティングとして定式化され、3D姿勢を制御できませんでした。テキスト誘導は空間的に曖昧、パラメトリックな3D手法は抽象パラメータを正しい幾何投影へ翻訳できない、という限界がありました。
💡 方法論と提案手法
・ユーザーが操作する3Dプロキシを目標姿勢でレンダリングし幾何ガイダンスを得ます
・外観(参照の高忠実度な見た目)と文脈(背景の意味)を、別々のLoRAと位置埋め込みで独立注入し特徴のもつれを防ぎます
・TRELLISで画像から粗い3Dを生成し、VGGTと3D Gaussian Splattingで姿勢を精緻化します
・FLUX.1-Fill上に構築し、形状分解マスク拡張と漸進的解像度学習で過学習を防ぎます
🎯 ユースケース
バーチャルステージング、EC商品撮影、精密な空間制御が要るクリエイティブ制作、フォトリアルなAR/VRコンテンツ生成などに使えます。
📊 実験結果
・FLUXベースでPSNR 23.09、LPIPS 0.147、マッチング誤差17.8と、ベースラインを全指標で上回りました
・0°〜180°の大きな姿勢変化でも安定し、3D再構成の劣化にも頑健に細部を保持しました
・ハイブリッドデータ学習でCLIP-Iが0.904→0.943に向上しました
・対称オブジェクトの向き付けでは、RGB幾何ガイダンスが法線マップを上回ることも示しました
#
3DGeneration# #
ImageEditing#