！を X で検索 — Twitter ブラウザ

MANTANWEB／毎日キレイ@mantanweb

5minutes ago

芳根京子：「24時間テレビ49」のチャリティーパートナーに　自身も中学生の頃にギラン・バレー症候群を発症 #芳根京子# #24時間テレビ49# #24時間テレビ#

0

コミュニティへ転送

MANTANWEB／毎日キレイ@mantanweb

5minutes ago

香取慎吾：東野圭吾「虚ろな十字架」ドラマ化で主演　最愛の家族を殺された被害者遺族の苦悩を演じる　加害者家族に初共演の赤楚衛二（コメント全文） @drama_wowow #香取慎吾# #東野圭吾# #赤楚衛二# #虚ろな十字架#

0

1

0

コミュニティへ転送

健身的小妈🔥@aijiansnendeniu

18minutes ago

"和宠物玩耍的时候，心情格外愉快！🐾"

0

コミュニティへ転送

精霊@ghostonki

20minutes ago

やっぱり日本の女の子は素敵 😍🇯🇵

0

コミュニティへ転送

オリコンニュース@oricon

35minutes ago

『サバ缶』神木隆之介、北村匠海と念願の初共演に「とても幸せでした！」　ドラマの舞台、福井県小浜で撮了

0

5

2

0

コミュニティへ転送

Mango ๑⃙⃘@xiaomango_

35minutes ago

所有人！感受！

0

コミュニティへ転送

cv usk@cv_usk

51minutes ago

LLMの「残差接続」、実は各層を一律の重みで足しているだけでした➕ 深くなるほど各層の貢献が薄まるこの問題に、アテンションで答える改良です。タイトル: Attention Residuals URL: ➕ 概要残差接続の固定重みでの足し合わせを、softmaxアテンションに置き換える手法AttnResの提案です。各層が、学習された入力依存の重みで、それより前の表現を選択的に集約できるようにします。 ❓ 解決する課題現代のLLMはPreNorm付きの残差接続が標準ですが、各層の出力を固定の等しい重みで足し合わせます。・層が深くなるほど隠れ状態が制御不能に増大します・一律に足すため、個々の層の寄与が深さとともに希薄化しますつまり「どの層の表現をどれだけ使うか」を制御できていませんでした。 💡 方法論と提案手法・Full AttnRes：すべての先行層の出力にアテンションを適用します・Block AttnRes：層をブロックに分割し、ブロック単位の表現にのみアテンションして計算を削減します・キャッシュベースのパイプライン通信と2フェーズの計算戦略を採用・Kimi Linearアーキテクチャ（総48B/活性3B）で検証しました 📊 実験結果・1.4兆トークンで事前学習・深さ方向でより均一な出力の大きさと勾配分布を達成・評価したすべての下流タスクで性能が向上・スケーリング実験でもモデルサイズをまたいで一貫した改善を確認 #LLM# #アーキテクチャ#

0

コミュニティへ転送

オリコンニュース@oricon

1hours ago

柄本時生、舞台けいこは“ずっと裸足”　柄本家ならではの理由告白「僕、幼少期に…」（写真全7枚）