🏠 テキストや画像で家具を指定するだけで、スタイルの揃った3D屋内シーンを自動生成。しかもMMGDreamer比で約85%高速です。
タイトル: FlowScene: Style-Consistent Indoor Scene Generation with Multimodal Graph Rectified Flow
URL:
📝 概要
FlowSceneは、テキストと画像を融合したマルチモーダルなシーングラフから、高忠実度の3D屋内シーンを生成する手法です。配置・形状・テクスチャの3ブランチを、直線的なRectified Flowで同時に生成し、シーン全体でスタイルの一貫性を保ちます。
❓ 解決する課題
言語駆動の検索型はオブジェクト単位の制御やスタイル一貫性に弱く、グラフベース型は高品質なテクスチャ生成が苦手でした。FlowSceneはこの両者の弱点を同時に解消します。
💡 方法論と提案手法
・ノードがテキスト記述と画像特徴を融合できるマルチモーダルグラフを入力にします(テキストのみ・画像のみ・混在に対応)
・サンプリング中にノード情報を密に交換するInfoExchangeUnitで、個別条件と全体条件を両立させます
・配置(3Dボックス)、形状(VQ-VAE潜在)、テクスチャ(幾何にアンカー)を独立デノイザで生成します
・テクスチャは幾何を固定したまま外観だけをデノイズし、テキストのみのノードにもスタイル一貫したテクスチャを合成します
🎯 ユースケース
インテリアデザインや製造での対話的なシーン設計、VR/ARコンテンツ制作、ロボティクスのシミュレーション環境づくりなどに使えます。
📊 実験結果
・FID(寝室)が42.38→35.01とMMGDreamer比17.4%改善
・CLIPScore 0.2386で全手法中最高、スタイル一貫性のユーザー評価も8.72/10
・推論時間はテクスチャなしで6.83秒と、MMGDreamerの45.34秒より約85%高速
・ナイトスタンドの最小マッチング距離を43.90%改善するなど、オブジェクト品質も向上しました
#
3DGeneration# #
GenerativeAI#