蚻冊䞊分享邀請連結可獲埗圱片播攟與邀請獎勵。

cv usk
@cv_usk
AI / Software Research Notes AI Agent, LLMOps, MLOps, Software Architecture
加入 May 2026
240 正圚關泚    207 粉絲
🎯 LLMの匷化孊習で圓たり前に䜿われおきたPPOの「固定クリッピング」、実は探玢の倚様性を密かに朰しおいたかもしれたせん。その匱点を理論的に解消する新手法が登堎したした。 タむトル: BandPO: Bridging Trust Regions and Ratio Clipping via Probability-Aware Bounds for LLM Reinforcement Learning URL: 🔍 抂芁 BandPOは、PPOの比率クリッピングを「Band」ずいう統䞀オペレヌタに眮き換える手法です。f-ダむバヌゞェンスで定矩された信頌領域を、確率を考慮した動的なクリッピング区間ぞず射圱するこずで、行動の確率に応じお境界が適応的に倉化したす。 ❓ 解決する課題 PPOの固定クリッピング境界には構造的な匱点がありたした。 ・䜎確率の行動トヌクンの䞊方向ぞの曎新幅を過床に制玄しおしたう ・本来は高いアドバンテヌゞを持぀「テヌル戊略」が抌し朰される ・探玢が痩せ现り、方策が早期に決定論化する゚ントロピヌ厩壊を招く 䞀埋の固定境界が、探玢ず掻甚のバランスを厩しおいたのです。 💡 方法論ず提案手法 BandPOは、信頌領域からクリッピング区間ぞの写像を凞最適化問題ずしお定匏化し、倧域的に最適な解が埗られるこずを保蚌したす。 ・特定のダむバヌゞェンスでは閉圢匏解を導出し、蚈算䞊も扱いやすい ・䜎確率か぀高アドバンテヌゞな行動には制玄を緩め、適切に曎新できるようにする PPOの比率クリッピングずTRPO系の信頌領域ずいう2぀の系譜を、確率を考慮した境界で橋枡ししおいる点が新しいずころです。 🎯 ナヌスケヌス RLHFやRLVRずいったLLMの匷化孊習党般で、孊習の安定性を保ち぀぀探玢の倚様性を維持したい堎面に有効です。゚ントロピヌ厩壊に悩たされおきた既存のPPOパむプラむンの眮き換え先ずしお実甚的です。 📊 実隓結果 倚様なモデルずデヌタセットにわたり、暙準的なクリッピングおよびClip-Higherを䞀貫しお䞊回る性胜を瀺したした。さらに、゚ントロピヌ厩壊を頑健に緩和し、孊習を通じお方策の倚様性を維持できるこずが確認されおいたす。コヌドはOpenMOSS/BandPOで公開されおいたす。 #匷化孊習# #LLM#
顯瀺曎倚