cv usk(@cv_usk):「1文字ずつ」しか喋れないAIは、もう古いのかもしれません🌀 画像生成で大成功した拡散モデルを、ついに言語生成へ持ち込んだ研究が登場しました。タイトル: dLLM: Simple Diffusion Language Modeling URL: https://t.co/OdCZUszdhI 🌀 概要本研究は、画像生成でおなじみの「拡散モデル」の考え方を、言語モデリングに応用したフレームワーク「dLLM」を提案しています。テキストを左から右へ順番に作るのではなく、ノイズ（マスク）まみれの状態から、複数ステップをかけて文章全体を少しずつ整えていく「反復的な精緻化」によって生成します。名前のとおり、複雑な仕掛けを足さずに、できる限りシンプルに実現することを重視しているのが特徴です。 ❓ 解決する課題現在のLLMの主流は、トークンを1つずつ予測していく「自己回帰（Autoregressive）」方式です。しかしこの方式には弱点があります。・逐次生成のため本質的に並列化しにくく、長文ほど生成が遅くなりがちです・一度書いたトークンを後から推敲・修正する仕組みがなく、全体を見渡して整えるのが苦手です拡散ベースの生成は、これらの制約を別の角度から解きほぐす可能性を持っています。 💡 方法論と提案手法 dLLMは、言語生成を「離散拡散（Discrete Diffusion）プロセス」として定式化し直します。・マスクされた、あるいはノイズの乗ったトークンからスタートします・複数ステップにわたって段階的にアンマスク（デノイズ）し、クリーンな系列へ復元します・破損した入力から正しいトークンを予測するよう、ニューラルネットワークを訓練します・複数トークンを同時に生成できる「並列デコーディング」に対応します新規の特殊なネットワークを設計するのではなく、既存のTransformerにそのまま載せられる点が実装上の大きな利点です。 🌍 ユースケース / 実験結果複数のモデル規模・系統で有効性が確認されました。・エンコーダ系：ModernBERTを拡散方式で訓練し、分類ベンチマークで競争力ある結果を達成・デコーダ系：QwenやLlamaをベースにした拡散モデルでも、言語理解タスクで実用的な性能を確認・並列デコーディングにより、標準的な自己回帰方式より高速な推論を実現・0.6Bから、より大きなパラメータ領域まで一貫して有効性を確認高速応答が求められるチャットや、推論コストを抑えたい大規模サービスでの活用が期待されます。 #拡散モデル #LLM

2026.06.12 07:35

「1文字ずつ」しか喋れないAIは、もう古いのかもしれません🌀 画像生成で大成功した拡散モデルを、ついに言語生成へ持ち込んだ研究が登場しました。タイトル: dLLM: Simple Diffusion Language Modeling URL: 🌀 概要本研究は、画像生成でおなじみの「拡散モデル」の考え方を、言語モデリングに応用したフレームワーク「dLLM」を提案しています。テキストを左から右へ順番に作るのではなく、ノイズ（マスク）まみれの状態から、複数ステップをかけて文章全体を少しずつ整えていく「反復的な精緻化」によって生成します。名前のとおり、複雑な仕掛けを足さずに、できる限りシンプルに実現することを重視しているのが特徴です。 ❓ 解決する課題現在のLLMの主流は、トークンを1つずつ予測していく「自己回帰（Autoregressive）」方式です。しかしこの方式には弱点があります。・逐次生成のため本質的に並列化しにくく、長文ほど生成が遅くなりがちです・一度書いたトークンを後から推敲・修正する仕組みがなく、全体を見渡して整えるのが苦手です拡散ベースの生成は、これらの制約を別の角度から解きほぐす可能性を持っています。 💡 方法論と提案手法 dLLMは、言語生成を「離散拡散（Discrete Diffusion）プロセス」として定式化し直します。・マスクされた、あるいはノイズの乗ったトークンからスタートします・複数ステップにわたって段階的にアンマスク（デノイズ）し、クリーンな系列へ復元します・破損した入力から正しいトークンを予測するよう、ニューラルネットワークを訓練します・複数トークンを同時に生成できる「並列デコーディング」に対応します新規の特殊なネットワークを設計するのではなく、既存のTransformerにそのまま載せられる点が実装上の大きな利点です。 🌍 ユースケース / 実験結果複数のモデル規模・系統で有効性が確認されました。・エンコーダ系：ModernBERTを拡散方式で訓練し、分類ベンチマークで競争力ある結果を達成・デコーダ系：QwenやLlamaをベースにした拡散モデルでも、言語理解タスクで実用的な性能を確認・並列デコーディングにより、標準的な自己回帰方式より高速な推論を実現・0.6Bから、より大きなパラメータ領域まで一貫して有効性を確認高速応答が求められるチャットや、推論コストを抑えたい大規模サービスでの活用が期待されます。 #拡散モデル# #LLM#

显示更多