cv usk(@cv_usk):🧮 MoEのルーター、なんとなく学習させていませんか？「ルーター行を専門家行列の主特異方向に揃えるべき」という、数学的に裏づけられた設計原理が提案されました。タイトル: Redesign Mixture-of-Experts Routers with Manifold Power Iteration URL: https://t.co/G0maku3z70 📝 概要 MoEは入力ごとに一部の専門家だけを使う効率的な仕組みで、どの専門家を使うかを決めるのがルーターです。本論文は、ルーターの各行を対応する専門家行列の主特異方向に揃えることで、トークンと専門家の親和性をより良く表現できると主張します。 ❓ 解決する課題ルーターの各行は「専門家の代理ベクトル」として類似度を計算しますが、その代理ベクトルをどう設計すべきかという原理的な指針がこれまでありませんでした。専門家の情報を代表ベクトルへ凝縮する明確な原則が欠けていたのです。 💡 方法論と提案手法・提案手法Manifold Power Iteration（MPI）は「Power-then-Retract（べき乗してから引き戻す）」というパラダイムを採用します・ルーター重みにべき乗反復を行い、主特異方向へ収束させます・ノルム制約を課すリトラクション操作で、計算効率と学習の安定性を両立します・ルーター行が主特異方向へ収束することの理論的な証明も与えています 🎯 ユースケース大規模MoE-LLMのルーティング設計に、経験則ではなく原理に基づく指針を提供します。専門家の利用効率（特定専門家への偏りなど）を改善したい場面に効きそうです。 📊 実験結果・1B〜11BパラメータのスケールにわたってMoEモデルを事前学習し、整合が有効性を高めることを検証しました・主特異方向への整合により、専門家の活性化判断がより効果的になることを示しています MoEが大規模LLMの標準になりつつある中で、ルーティングの「なぜそう設計するか」に答える基礎的な貢献です。 #MoE #LLM

2026.06.12 10:59

🧮 MoEのルーター、なんとなく学習させていませんか？「ルーター行を専門家行列の主特異方向に揃えるべき」という、数学的に裏づけられた設計原理が提案されました。タイトル: Redesign Mixture-of-Experts Routers with Manifold Power Iteration URL: 📝 概要 MoEは入力ごとに一部の専門家だけを使う効率的な仕組みで、どの専門家を使うかを決めるのがルーターです。本論文は、ルーターの各行を対応する専門家行列の主特異方向に揃えることで、トークンと専門家の親和性をより良く表現できると主張します。 ❓ 解決する課題ルーターの各行は「専門家の代理ベクトル」として類似度を計算しますが、その代理ベクトルをどう設計すべきかという原理的な指針がこれまでありませんでした。専門家の情報を代表ベクトルへ凝縮する明確な原則が欠けていたのです。 💡 方法論と提案手法・提案手法Manifold Power Iteration（MPI）は「Power-then-Retract（べき乗してから引き戻す）」というパラダイムを採用します・ルーター重みにべき乗反復を行い、主特異方向へ収束させます・ノルム制約を課すリトラクション操作で、計算効率と学習の安定性を両立します・ルーター行が主特異方向へ収束することの理論的な証明も与えています 🎯 ユースケース大規模MoE-LLMのルーティング設計に、経験則ではなく原理に基づく指針を提供します。専門家の利用効率（特定専門家への偏りなど）を改善したい場面に効きそうです。 📊 実験結果・1B〜11BパラメータのスケールにわたってMoEモデルを事前学習し、整合が有効性を高めることを検証しました・主特異方向への整合により、専門家の活性化判断がより効果的になることを示しています MoEが大規模LLMの標準になりつつある中で、ルーティングの「なぜそう設計するか」に答える基礎的な貢献です。 #MoE# #LLM#