ReinforcementLearning を X で検索

検索結果 ReinforcementLearning

ReinforcementLearning コミュニティ

1つのキーワードが1つのコミュニティです。

コミュニティ作成

アカウント

見つかりません

ReinforcementLearning を含む検索結果

cv usk@cv_usk

2026.06.18 13:59

🎬 蒸留された自己回帰の動画モデルは速い一方で、人間の好みからズレがちです。再蒸留も逆プロセスの展開も使わず、「順プロセス」で強化学習アラインメントを行うAstrolabeが、その難題に答えます。タイトル: Astrolabe: Steering Forward-Process Reinforcement Learning URL: 📝 概要 Astrolabeは、蒸留された自己回帰（AR）動画モデルを人間の視覚的な好みに整合させる強化学習フレームワークです。最大の特徴は、従来の逆プロセス最適化ではなく、順プロセス（forward-process）でRLを行う点にあります。全53ページ・37図の大規模な研究です。 ❓ 解決する課題蒸留AR動画モデルは効率的なストリーミング生成に向く一方、人間の好みと乖離しやすいという弱点があります。さらに既存のRLは、こうしたアーキテクチャに自然には合いません。一般に、高コストな再蒸留か、ソルバー結合の逆プロセス最適化のいずれかを必要とし、どちらも重くスケールしにくいものでした。 💡 方法論と提案手法 3つの工夫から成ります。・負例認識の微調整：推論の終端で正例と負例を対比させ、逆プロセスを展開せずに、暗黙的なポリシー改善の方向を確立します・ストリーミング学習：ローリングKVキャッシュでシーケンスを段階的に生成し、RL更新は局所的なクリップウィンドウにのみ適用、長距離の一貫性は先行コンテキストへの条件付けで維持します・複数報酬の目的関数：不確実性を考慮した選択的正則化と動的な参照更新を統合し、報酬ハッキング（見かけのスコアだけ上げる崩壊）を緩和します 🎯 ユースケースリアルタイム・ストリーミングな動画生成で、効率的な蒸留モデルを速さを保ったまま好みへ整合させたい場面に向きます。複数の蒸留AR動画モデルに適用でき、推論の軽さを犠牲にせずに品質を底上げできます。 📊 意義と結果・再蒸留や逆プロセス展開という重い経路を避けることで、計算効率のボトルネックに対処します・順プロセスでの負例認識・ストリーミング更新・報酬ハッキング対策を組み合わせ、堅牢でスケーラブルなアラインメント解を提供します・複数の蒸留ARモデルにわたって有効性が示され、詳細な定量評価とアブレーションを含みます #VideoGeneration# #ReinforcementLearning#

コミュニティへ転送

cv usk@cv_usk

2026.06.16 23:33

🎯 LLMの強化学習で当たり前に使われてきたPPOの「固定クリッピング」、実は探索の多様性を密かに潰していたかもしれません。その弱点を理論的に解消する新手法が登場しました。タイトル: BandPO: Bridging Trust Regions and Ratio Clipping via Probability-Aware Bounds for LLM Reinforcement Learning URL: 🔍 概要 BandPOは、PPOの比率クリッピングを「Band」という統一オペレータに置き換える手法です。f-ダイバージェンスで定義された信頼領域を、確率を考慮した動的なクリッピング区間へと射影することで、行動の確率に応じて境界が適応的に変化します。 ❓ 解決する課題 PPOの固定クリッピング境界には構造的な弱点がありました。・低確率の行動（トークン）の上方向への更新幅を過度に制約してしまう・本来は高いアドバンテージを持つ「テール戦略」が押し潰される・探索が痩せ細り、方策が早期に決定論化するエントロピー崩壊を招く一律の固定境界が、探索と活用のバランスを崩していたのです。 💡 方法論と提案手法 BandPOは、信頼領域からクリッピング区間への写像を凸最適化問題として定式化し、大域的に最適な解が得られることを保証します。・特定のダイバージェンスでは閉形式解を導出し、計算上も扱いやすい・低確率かつ高アドバンテージな行動には制約を緩め、適切に更新できるようにする PPOの比率クリッピングとTRPO系の信頼領域という2つの系譜を、確率を考慮した境界で橋渡ししている点が新しいところです。 🎯 ユースケース RLHFやRLVRといったLLMの強化学習全般で、学習の安定性を保ちつつ探索の多様性を維持したい場面に有効です。エントロピー崩壊に悩まされてきた既存のPPOパイプラインの置き換え先として実用的です。 📊 実験結果多様なモデルとデータセットにわたり、標準的なクリッピングおよびClip-Higherを一貫して上回る性能を示しました。さらに、エントロピー崩壊を頑健に緩和し、学習を通じて方策の多様性を維持できることが確認されています。コードはOpenMOSS/BandPOで公開されています。 #強化学習# #LLM#

コミュニティへ転送