🧊 1枚の画像から3Dを作るとき、「見えている面は正確だが裏側は作れない」か「完全だが入力とズレる」かの二択でした。World Tracingは、ピクセルごとに3D点を層状に積み上げて、見える面と隠れた面を同時に手に入れます。
タイトル: World Tracing: Generative Pixel-Aligned Geometry Beyond the Visible
URL:
🔍 概要
World Tracingは、各ピクセルに対しカメラ空間の3D点を順序付きでL個積層する表現です。第0層が見える表面、深い層が前景の裏に隠れた面との前後交差を記録し、忠実な再構成と生成的な補完を1つの層状問題として統合します。
❓ 解決する課題
従来のimage-to-3Dには根本的なトレードオフがありました。
・深度推定器はピクセルに正確だが、見える表面で止まる
・生成3Dモデルは完全だが、正準座標で動くため入力とズレる
World Tracingは「見える面を正確に再構成しつつ見えない面をもっともらしく生成する」忠実な生成として定式化します。
💡 方法論と提案手法
中核は17億パラメータの拡散トランスフォーマWT-DiTです。
・層内・レイ方向・グローバルの3方向に因子化したアテンションで、深度順序と前後の整合を保つ
・第0層は画像に制約される再構成的、深い層は生成的という非対称性に対し、層ごとにノイズ量を変える混合ノイズスケジュールを導入
・多層(3Dアセット)と単層(RGBD写真)の教師を同時に使える混合学習
🎯 ユースケース
・テキスト駆動の3Dシーン編集(ピクセル整列なので再学習なしのクローズドフォーム合成)
・完全な裏側形状をメモリに使う、ジオメトリ条件付きの新視点ビデオ生成
・TRELLISと組み合わせ、入力に正しく再投影される忠実なメッシュ生成
📊 実験結果
オブジェクト・シーン・動的の各ベンチで既存手法を上回りました。
・オブジェクト可視深度MAE 0.0149(VGGT 0.0257)
・完全形状F-score
@0.05 0.549(TRELLIS 0.204)
・シーンMAE 0.0102、動的クリップChamfer L2 0.0105で最良
#
3D生成# #
CV#