🖼 画像編集のテスト時スケーリングは「どんな編集にも同じ計算予算」を割り当てがちで、無駄だらけでした。難易度に応じて配分し、編集に特化した検証で枝刈りすることで、品質を保ったまま最大2.2倍の高速化を実現した研究です。
タイトル: From Scale to Speed: Adaptive Test-Time Scaling for Image Editing
URL:
📝 概要
ADE-CoTは、目的志向の画像編集に特化したテスト時スケーリング手法です。テキストから画像を作る生成向けに作られた従来のImage-CoTをそのまま編集に流用するのではなく、「難易度に応じた資源配分」「編集特化の早期検証」「機会主義的な停止」という3つの戦略を組み合わせ、計算を大きく節約しながら品質を維持します。
❓ 解決する課題
従来手法には3つのミスマッチがありました。
・固定のサンプリング予算が、ほとんど改善しない簡単な編集にも計算を浪費する
・汎用のMLLMスコアが、早期スコアは低くても最終的に高得点になるサンプルの約40%を誤って枝刈りしてしまう
・大規模サンプリングが同一の正解を何度も生み、不要な計算を増やす
💡 方法論と提案手法
・編集の難易度を見て、簡単な編集は最小予算、複雑な編集は探索を拡大します
・ワンステップ・プレビューで、追加のデノイジングなしにノイズ中間状態からクリーンな潜在を推定し、早期検証を信頼できるものにします
・Grounded SAM2で「意図した領域だけが変わったか」を検証し、DINOv2の埋め込みで冗長な候補を除去します
・候補を逐次生成し、意図に合う結果が十分に得られた時点で打ち切る深さ優先の停止を使います
🎯 ユースケース
複雑な姿勢変更、複数オブジェクトの削除や置換、細粒度の領域編集、マルチターンの逐次編集、そして計算制約下での高品質編集に向きます。本番の画像編集APIのように推論コストが効く場面で特に有効です。
📊 実験結果
・GEdit-Benchで、FLUX.1 KontextがBest-of-N比2.2倍、BAGELが1.8倍、Step1X-Editが2.0倍の高速化を達成しました
・推論効率は固定32サンプル予算で2倍超、結果効率は3つのベンチで4.9倍・2.7倍・2.9倍に向上しました
・「白い服の女性の隣に立つ人を消す」といった難しい複数オブジェクト編集でも、ベースラインの誤認を正しく解決しました
#
ImageEditing# #
DiffusionModels#