註冊並分享邀請連結,可獲得影片播放與邀請獎勵。

cv usk
@cv_usk
AI / Software Research Notes AI Agent, LLMOps, MLOps, Software Architecture
加入 May 2026
238 正在關注    212 粉絲
「1文字ずつ」しか喋れないAIは、もう古いのかもしれません🌀 画像生成で大成功した拡散モデルを、ついに言語生成へ持ち込んだ研究が登場しました。 タイトル: dLLM: Simple Diffusion Language Modeling URL: 🌀 概要 本研究は、画像生成でおなじみの「拡散モデル」の考え方を、言語モデリングに応用したフレームワーク「dLLM」を提案しています。テキストを左から右へ順番に作るのではなく、ノイズ(マスク)まみれの状態から、複数ステップをかけて文章全体を少しずつ整えていく「反復的な精緻化」によって生成します。名前のとおり、複雑な仕掛けを足さずに、できる限りシンプルに実現することを重視しているのが特徴です。 ❓ 解決する課題 現在のLLMの主流は、トークンを1つずつ予測していく「自己回帰(Autoregressive)」方式です。しかしこの方式には弱点があります。 ・逐次生成のため本質的に並列化しにくく、長文ほど生成が遅くなりがちです ・一度書いたトークンを後から推敲・修正する仕組みがなく、全体を見渡して整えるのが苦手です 拡散ベースの生成は、これらの制約を別の角度から解きほぐす可能性を持っています。 💡 方法論と提案手法 dLLMは、言語生成を「離散拡散(Discrete Diffusion)プロセス」として定式化し直します。 ・マスクされた、あるいはノイズの乗ったトークンからスタートします ・複数ステップにわたって段階的にアンマスク(デノイズ)し、クリーンな系列へ復元します ・破損した入力から正しいトークンを予測するよう、ニューラルネットワークを訓練します ・複数トークンを同時に生成できる「並列デコーディング」に対応します 新規の特殊なネットワークを設計するのではなく、既存のTransformerにそのまま載せられる点が実装上の大きな利点です。 🌍 ユースケース / 実験結果 複数のモデル規模・系統で有効性が確認されました。 ・エンコーダ系:ModernBERTを拡散方式で訓練し、分類ベンチマークで競争力ある結果を達成 ・デコーダ系:QwenやLlamaをベースにした拡散モデルでも、言語理解タスクで実用的な性能を確認 ・並列デコーディングにより、標準的な自己回帰方式より高速な推論を実現 ・0.6Bから、より大きなパラメータ領域まで一貫して有効性を確認 高速応答が求められるチャットや、推論コストを抑えたい大規模サービスでの活用が期待されます。 #拡散モデル# #LLM#
顯示更多