🎯 LLMの強化学習で当たり前に使われてきたPPOの「固定クリッピング」、実は探索の多様性を密かに潰していたかもしれません。その弱点を理論的に解消する新手法が登場しました。
タイトル: BandPO: Bridging Trust Regions and Ratio Clipping via Probability-Aware Bounds for LLM Reinforcement Learning
URL:
🔍 概要
BandPOは、PPOの比率クリッピングを「Band」という統一オペレータに置き換える手法です。f-ダイバージェンスで定義された信頼領域を、確率を考慮した動的なクリッピング区間へと射影することで、行動の確率に応じて境界が適応的に変化します。
❓ 解決する課題
PPOの固定クリッピング境界には構造的な弱点がありました。
・低確率の行動(トークン)の上方向への更新幅を過度に制約してしまう
・本来は高いアドバンテージを持つ「テール戦略」が押し潰される
・探索が痩せ細り、方策が早期に決定論化するエントロピー崩壊を招く
一律の固定境界が、探索と活用のバランスを崩していたのです。
💡 方法論と提案手法
BandPOは、信頼領域からクリッピング区間への写像を凸最適化問題として定式化し、大域的に最適な解が得られることを保証します。
・特定のダイバージェンスでは閉形式解を導出し、計算上も扱いやすい
・低確率かつ高アドバンテージな行動には制約を緩め、適切に更新できるようにする
PPOの比率クリッピングとTRPO系の信頼領域という2つの系譜を、確率を考慮した境界で橋渡ししている点が新しいところです。
🎯 ユースケース
RLHFやRLVRといったLLMの強化学習全般で、学習の安定性を保ちつつ探索の多様性を維持したい場面に有効です。エントロピー崩壊に悩まされてきた既存のPPOパイプラインの置き換え先として実用的です。
📊 実験結果
多様なモデルとデータセットにわたり、標準的なクリッピングおよびClip-Higherを一貫して上回る性能を示しました。さらに、エントロピー崩壊を頑健に緩和し、学習を通じて方策の多様性を維持できることが確認されています。コードはOpenMOSS/BandPOで公開されています。
#
強化学習# #
LLM#