「1文字ずつ」しか喋れないAIは、もう古いのかもしれません🌀 画像生成で大成功した拡散モデルを、ついに言語生成へ持ち込んだ研究が登場しました。
タイトル: dLLM: Simple Diffusion Language Modeling
URL:
🌀 概要
本研究は、画像生成でおなじみの「拡散モデル」の考え方を、言語モデリングに応用したフレームワーク「dLLM」を提案しています。テキストを左から右へ順番に作るのではなく、ノイズ(マスク)まみれの状態から、複数ステップをかけて文章全体を少しずつ整えていく「反復的な精緻化」によって生成します。名前のとおり、複雑な仕掛けを足さずに、できる限りシンプルに実現することを重視しているのが特徴です。
❓ 解決する課題
現在のLLMの主流は、トークンを1つずつ予測していく「自己回帰(Autoregressive)」方式です。しかしこの方式には弱点があります。
・逐次生成のため本質的に並列化しにくく、長文ほど生成が遅くなりがちです
・一度書いたトークンを後から推敲・修正する仕組みがなく、全体を見渡して整えるのが苦手です
拡散ベースの生成は、これらの制約を別の角度から解きほぐす可能性を持っています。
💡 方法論と提案手法
dLLMは、言語生成を「離散拡散(Discrete Diffusion)プロセス」として定式化し直します。
・マスクされた、あるいはノイズの乗ったトークンからスタートします
・複数ステップにわたって段階的にアンマスク(デノイズ)し、クリーンな系列へ復元します
・破損した入力から正しいトークンを予測するよう、ニューラルネットワークを訓練します
・複数トークンを同時に生成できる「並列デコーディング」に対応します
新規の特殊なネットワークを設計するのではなく、既存のTransformerにそのまま載せられる点が実装上の大きな利点です。
🌍 ユースケース / 実験結果
複数のモデル規模・系統で有効性が確認されました。
・エンコーダ系:ModernBERTを拡散方式で訓練し、分類ベンチマークで競争力ある結果を達成
・デコーダ系:QwenやLlamaをベースにした拡散モデルでも、言語理解タスクで実用的な性能を確認
・並列デコーディングにより、標準的な自己回帰方式より高速な推論を実現
・0.6Bから、より大きなパラメータ領域まで一貫して有効性を確認
高速応答が求められるチャットや、推論コストを抑えたい大規模サービスでの活用が期待されます。
#
拡散モデル# #
LLM#