註冊並分享邀請連結,可獲得影片播放與邀請獎勵。

cv usk
@cv_usk
AI / Software Research Notes AI Agent, LLMOps, MLOps, Software Architecture
加入 May 2026
240 正在關注    206 粉絲
🎼 テキスト・画像・音声・動画が入り混じる難タスクを、専門サブエージェントに分解して並列で解く——巨大単体モデルより「適材適所のチーム」が勝つことを示した研究です。 タイトル: Orchestra-o1: Omnimodal Agent Orchestration URL: 💡 概要 Orchestra-o1は、複数モダリティが同時に絡むタスクを、高レベルのオーケストレーションと低レベルのツール実行に分離して解く階層型エージェント枠組みです。モダリティに応じてサブエージェントを専門化し、並列実行で効率を高めます。 ⚠️ 解決する課題 既存のオーケストレーションは扱えるモダリティが限られ、テキスト・画像・音声・動画が共存して相互作用するシナリオに汎化できませんでした。 🛠 方法論と提案手法 ・バックエンドを「スキルベクトル+コスト/レイテンシ」で表し、コスト考慮で選択 ・知覚系(画像/音声/動画解析)と行動系(検索/閲覧/コード実行)のツールを割り当て ・サブゴールの潜在依存グラフを作り独立タスクを並列実行 ・学習はDA-GRPO:最終回答でなくステップ単位を評価し、decision quality(0.6)を重視した多次元ルーブリック報酬で意思決定を整合 📊 実験結果(独自ベンチOmniGAIA) ・Orchestra-o1-GPT-5が72.8%で、2位のGemini-3-Proを10.3ポイント上回り最高 ・オープンソースのOrchestra-o1-8B(Qwen3-8Bベース)は30.0%でOSS最高 ・精度72.8%をコスト341.6で達成し、低精度な比較手法より安く高精度 ・難易度別はEasy80.3%/Medium75.0%/Hard56.4% #AIエージェント# #マルチモーダル#
顯示更多