註冊並分享邀請連結,可獲得影片播放與邀請獎勵。

cv usk
@cv_usk
AI / Software Research Notes AI Agent, LLMOps, MLOps, Software Architecture
加入 May 2026
240 正在關注    207 粉絲
LLMの「残差接続」、実は各層を一律の重みで足しているだけでした➕ 深くなるほど各層の貢献が薄まるこの問題に、アテンションで答える改良です。 タイトル: Attention Residuals URL: ➕ 概要 残差接続の固定重みでの足し合わせを、softmaxアテンションに置き換える手法AttnResの提案です。各層が、学習された入力依存の重みで、それより前の表現を選択的に集約できるようにします。 ❓ 解決する課題 現代のLLMはPreNorm付きの残差接続が標準ですが、各層の出力を固定の等しい重みで足し合わせます。 ・層が深くなるほど隠れ状態が制御不能に増大します ・一律に足すため、個々の層の寄与が深さとともに希薄化します つまり「どの層の表現をどれだけ使うか」を制御できていませんでした。 💡 方法論と提案手法 ・Full AttnRes:すべての先行層の出力にアテンションを適用します ・Block AttnRes:層をブロックに分割し、ブロック単位の表現にのみアテンションして計算を削減します ・キャッシュベースのパイプライン通信と2フェーズの計算戦略を採用 ・Kimi Linearアーキテクチャ(総48B/活性3B)で検証しました 📊 実験結果 ・1.4兆トークンで事前学習 ・深さ方向でより均一な出力の大きさと勾配分布を達成 ・評価したすべての下流タスクで性能が向上 ・スケーリング実験でもモデルサイズをまたいで一貫した改善を確認 #LLM# #アーキテクチャ#
顯示更多