LLMの「残差接続」、実は各層を一律の重みで足しているだけでした➕ 深くなるほど各層の貢献が薄まるこの問題に、アテンションで答える改良です。
タイトル: Attention Residuals
URL:
➕ 概要
残差接続の固定重みでの足し合わせを、softmaxアテンションに置き換える手法AttnResの提案です。各層が、学習された入力依存の重みで、それより前の表現を選択的に集約できるようにします。
❓ 解決する課題
現代のLLMはPreNorm付きの残差接続が標準ですが、各層の出力を固定の等しい重みで足し合わせます。
・層が深くなるほど隠れ状態が制御不能に増大します
・一律に足すため、個々の層の寄与が深さとともに希薄化します
つまり「どの層の表現をどれだけ使うか」を制御できていませんでした。
💡 方法論と提案手法
・Full AttnRes:すべての先行層の出力にアテンションを適用します
・Block AttnRes:層をブロックに分割し、ブロック単位の表現にのみアテンションして計算を削減します
・キャッシュベースのパイプライン通信と2フェーズの計算戦略を採用
・Kimi Linearアーキテクチャ(総48B/活性3B)で検証しました
📊 実験結果
・1.4兆トークンで事前学習
・深さ方向でより均一な出力の大きさと勾配分布を達成
・評価したすべての下流タスクで性能が向上
・スケーリング実験でもモデルサイズをまたいで一貫した改善を確認
#
LLM# #
アーキテクチャ#