cv usk(@cv_usk):LLMの「残差接続」、実は各層を一律の重みで足しているだけでした➕ 深くなるほど各層の貢献が薄まるこの問題に、アテンションで答える改良です。タイトル: Attention Residuals URL: https://t.co/t24mF2DjpV ➕ 概要残差接続の固定重みでの足し合わせを、softmaxアテンションに置き換える手法AttnResの提案です。各層が、学習された入力依存の重みで、それより前の表現を選択的に集約できるようにします。 ❓ 解決する課題現代のLLMはPreNorm付きの残差接続が標準ですが、各層の出力を固定の等しい重みで足し合わせます。・層が深くなるほど隠れ状態が制御不能に増大します・一律に足すため、個々の層の寄与が深さとともに希薄化しますつまり「どの層の表現をどれだけ使うか」を制御できていませんでした。 💡 方法論と提案手法・Full AttnRes：すべての先行層の出力にアテンションを適用します・Block AttnRes：層をブロックに分割し、ブロック単位の表現にのみアテンションして計算を削減します・キャッシュベースのパイプライン通信と2フェーズの計算戦略を採用・Kimi Linearアーキテクチャ（総48B/活性3B）で検証しました 📊 実験結果・1.4兆トークンで事前学習・深さ方向でより均一な出力の大きさと勾配分布を達成・評価したすべての下流タスクで性能が向上・スケーリング実験でもモデルサイズをまたいで一貫した改善を確認 #LLM #アーキテクチャ

3hours ago

LLMの「残差接続」、実は各層を一律の重みで足しているだけでした➕ 深くなるほど各層の貢献が薄まるこの問題に、アテンションで答える改良です。タイトル: Attention Residuals URL: ➕ 概要残差接続の固定重みでの足し合わせを、softmaxアテンションに置き換える手法AttnResの提案です。各層が、学習された入力依存の重みで、それより前の表現を選択的に集約できるようにします。 ❓ 解決する課題現代のLLMはPreNorm付きの残差接続が標準ですが、各層の出力を固定の等しい重みで足し合わせます。・層が深くなるほど隠れ状態が制御不能に増大します・一律に足すため、個々の層の寄与が深さとともに希薄化しますつまり「どの層の表現をどれだけ使うか」を制御できていませんでした。 💡 方法論と提案手法・Full AttnRes：すべての先行層の出力にアテンションを適用します・Block AttnRes：層をブロックに分割し、ブロック単位の表現にのみアテンションして計算を削減します・キャッシュベースのパイプライン通信と2フェーズの計算戦略を採用・Kimi Linearアーキテクチャ（総48B/活性3B）で検証しました 📊 実験結果・1.4兆トークンで事前学習・深さ方向でより均一な出力の大きさと勾配分布を達成・評価したすべての下流タスクで性能が向上・スケーリング実験でもモデルサイズをまたいで一貫した改善を確認 #LLM# #アーキテクチャ#