cv usk(@cv_usk):🪑 画像に物を「3Dの向きと位置まで指定して」自然に挿入。テキストでは曖昧、パラメータでは難しかった3D姿勢制御を、視覚プロキシの分解で解いた手法DIRECTです。タイトル: Direct 3D-Aware Object Insertion via Decomposed Visual Proxies URL: https://t.co/kztx9c01ip 📝 概要 DIRECTは、参照オブジェクトを画像へ挿入する際に、3Dの姿勢と位置を明示的に制御できる拡散ベースの手法です。挿入条件を幾何・外観・文脈の3つに分解し、独立した経路で注入します。 ❓ 解決する課題既存の挿入手法は2Dインペインティングとして定式化され、3D姿勢を制御できませんでした。テキスト誘導は空間的に曖昧、パラメトリックな3D手法は抽象パラメータを正しい幾何投影へ翻訳できない、という限界がありました。 💡 方法論と提案手法・ユーザーが操作する3Dプロキシを目標姿勢でレンダリングし幾何ガイダンスを得ます・外観（参照の高忠実度な見た目）と文脈（背景の意味）を、別々のLoRAと位置埋め込みで独立注入し特徴のもつれを防ぎます・TRELLISで画像から粗い3Dを生成し、VGGTと3D Gaussian Splattingで姿勢を精緻化します・FLUX.1-Fill上に構築し、形状分解マスク拡張と漸進的解像度学習で過学習を防ぎます 🎯 ユースケースバーチャルステージング、EC商品撮影、精密な空間制御が要るクリエイティブ制作、フォトリアルなAR/VRコンテンツ生成などに使えます。 📊 実験結果・FLUXベースでPSNR 23.09、LPIPS 0.147、マッチング誤差17.8と、ベースラインを全指標で上回りました・0°〜180°の大きな姿勢変化でも安定し、3D再構成の劣化にも頑健に細部を保持しました・ハイブリッドデータ学習でCLIP-Iが0.904→0.943に向上しました・対称オブジェクトの向き付けでは、RGB幾何ガイダンスが法線マップを上回ることも示しました #3DGeneration #ImageEditing

2026.06.15 10:51

🪑 画像に物を「3Dの向きと位置まで指定して」自然に挿入。テキストでは曖昧、パラメータでは難しかった3D姿勢制御を、視覚プロキシの分解で解いた手法DIRECTです。タイトル: Direct 3D-Aware Object Insertion via Decomposed Visual Proxies URL: 📝 概要 DIRECTは、参照オブジェクトを画像へ挿入する際に、3Dの姿勢と位置を明示的に制御できる拡散ベースの手法です。挿入条件を幾何・外観・文脈の3つに分解し、独立した経路で注入します。 ❓ 解決する課題既存の挿入手法は2Dインペインティングとして定式化され、3D姿勢を制御できませんでした。テキスト誘導は空間的に曖昧、パラメトリックな3D手法は抽象パラメータを正しい幾何投影へ翻訳できない、という限界がありました。 💡 方法論と提案手法・ユーザーが操作する3Dプロキシを目標姿勢でレンダリングし幾何ガイダンスを得ます・外観（参照の高忠実度な見た目）と文脈（背景の意味）を、別々のLoRAと位置埋め込みで独立注入し特徴のもつれを防ぎます・TRELLISで画像から粗い3Dを生成し、VGGTと3D Gaussian Splattingで姿勢を精緻化します・FLUX.1-Fill上に構築し、形状分解マスク拡張と漸進的解像度学習で過学習を防ぎます 🎯 ユースケースバーチャルステージング、EC商品撮影、精密な空間制御が要るクリエイティブ制作、フォトリアルなAR/VRコンテンツ生成などに使えます。 📊 実験結果・FLUXベースでPSNR 23.09、LPIPS 0.147、マッチング誤差17.8と、ベースラインを全指標で上回りました・0°〜180°の大きな姿勢変化でも安定し、3D再構成の劣化にも頑健に細部を保持しました・ハイブリッドデータ学習でCLIP-Iが0.904→0.943に向上しました・対称オブジェクトの向き付けでは、RGB幾何ガイダンスが法線マップを上回ることも示しました #3DGeneration# #ImageEditing#

Forward to community