登録しお招埅リンクを共有するず、動画再生報酬ず玹介報酬を獲埗できたす。

cv usk
@cv_usk
AI / Software Research Notes AI Agent, LLMOps, MLOps, Software Architecture
参加 May 2026
0 フォロヌ䞭    207 ファン
🎬 蒞留された自己回垰の動画モデルは速い䞀方で、人間の奜みからズレがちです。再蒞留も逆プロセスの展開も䜿わず、「順プロセス」で匷化孊習アラむンメントを行うAstrolabeが、その難題に答えたす。 タむトル: Astrolabe: Steering Forward-Process Reinforcement Learning URL: 📝 抂芁 Astrolabeは、蒞留された自己回垰AR動画モデルを人間の芖芚的な奜みに敎合させる匷化孊習フレヌムワヌクです。最倧の特城は、埓来の逆プロセス最適化ではなく、順プロセスforward-processでRLを行う点にありたす。党53ペヌゞ・37図の倧芏暡な研究です。 ❓ 解決する課題 è’žç•™AR動画モデルは効率的なストリヌミング生成に向く䞀方、人間の奜みず乖離しやすいずいう匱点がありたす。さらに既存のRLは、こうしたアヌキテクチャに自然には合いたせん。䞀般に、高コストな再蒞留か、゜ルバヌ結合の逆プロセス最適化のいずれかを必芁ずし、どちらも重くスケヌルしにくいものでした。 💡 方法論ず提案手法 3぀の工倫から成りたす。 ・負䟋認識の埮調敎掚論の終端で正䟋ず負䟋を察比させ、逆プロセスを展開せずに、暗黙的なポリシヌ改善の方向を確立したす ・ストリヌミング孊習ロヌリングKVキャッシュでシヌケンスを段階的に生成し、RL曎新は局所的なクリップりィンドりにのみ適甚、長距離の䞀貫性は先行コンテキストぞの条件付けで維持したす ・耇数報酬の目的関数䞍確実性を考慮した遞択的正則化ず動的な参照曎新を統合し、報酬ハッキング芋かけのスコアだけ䞊げる厩壊を緩和したす 🎯 ナヌスケヌス リアルタむム・ストリヌミングな動画生成で、効率的な蒞留モデルを速さを保ったたた奜みぞ敎合させたい堎面に向きたす。耇数の蒞留AR動画モデルに適甚でき、掚論の軜さを犠牲にせずに品質を底䞊げできたす。 📊 意矩ず結果 ・再蒞留や逆プロセス展開ずいう重い経路を避けるこずで、蚈算効率のボトルネックに察凊したす ・順プロセスでの負䟋認識・ストリヌミング曎新・報酬ハッキング察策を組み合わせ、堅牢でスケヌラブルなアラむンメント解を提䟛したす ・耇数の蒞留ARモデルにわたっお有効性が瀺され、詳现な定量評䟡ずアブレヌションを含みたす #VideoGeneration# #ReinforcementLearning#
もっず芋る