1時間級の長尺動画を丸ごと理解し、ツールも検索も使いこなす——総30Bパラメータでも推論時はわずか3Bで動く、効率的なマルチモーダルモデルです🎬
タイトル: Kwai Keye-VL-2.0 Technical Report
URL:
🎬 概要
Kuaishou(快手)が開発した、長尺動画理解とエージェント的知能に特化したオープンソースのマルチモーダル基盤モデルです。Mixture-of-Experts(MoE)構成を採用し、総30Bパラメータのうち推論時に活性化するのは3Bのみという効率性を実現しています。
❓ 解決する課題
時間単位(hour-level)の長い動画を扱うには、膨大な計算が必要になります。
・フレーム数が多く、長距離の時間依存を捉えるのが難しい
・計算制約に対処しつつ、多様なタスクで高い性能を保つことが課題でした
💡 方法論と提案手法
・長文脈処理:DeepSeek Sparse Attention(DSA)をGQAベースのアーキテクチャに適応させ、256Kコンテキストのロスレス処理を実現。重要なフレームと長距離の時間依存を捉えます
・インフラ:スケーラブルな動画I/O、異種のViT-LM並列化、カスタムのDSAカーネル
・訓練:マルチタスクのアライメント時に生じる破滅的忘却に対処するため、Cross-Modal Multi-Teacher On-Policy Distillation(MOPD)を、Context-RL・Video-RLと組み合わせます
📊 実験結果
・同規模のモデルの中で最先端(SOTA)の性能を達成しました
・特に、TimeLensでの細粒度な時間的ローカライズで際立ちます
・Video-MME-v2とLongVideoBenchでの長尺動画理解でも優れています
・Code・Tool・Searchをまたぐマルチモーダルなエージェント協調や、自己修正能力も備えます
🌍 ユースケース
長い動画の理解・検索・モデレーション、動画を扱う自律エージェントの基盤などに向きます。スパースアテンションをこの規模のマルチモーダルに初めて適用した点で、時間単位の動画処理を計算コストを抑えて現実的に回せるのが大きな強みです。
#
動画理解# #
マルチモーダル#