🎼 テキスト・画像・音声・動画が入り混じる難タスクを、専門サブエージェントに分解して並列で解く——巨大単体モデルより「適材適所のチーム」が勝つことを示した研究です。
タイトル: Orchestra-o1: Omnimodal Agent Orchestration
URL:
💡 概要
Orchestra-o1は、複数モダリティが同時に絡むタスクを、高レベルのオーケストレーションと低レベルのツール実行に分離して解く階層型エージェント枠組みです。モダリティに応じてサブエージェントを専門化し、並列実行で効率を高めます。
⚠️ 解決する課題
既存のオーケストレーションは扱えるモダリティが限られ、テキスト・画像・音声・動画が共存して相互作用するシナリオに汎化できませんでした。
🛠 方法論と提案手法
・バックエンドを「スキルベクトル+コスト/レイテンシ」で表し、コスト考慮で選択
・知覚系(画像/音声/動画解析)と行動系(検索/閲覧/コード実行)のツールを割り当て
・サブゴールの潜在依存グラフを作り独立タスクを並列実行
・学習はDA-GRPO:最終回答でなくステップ単位を評価し、decision quality(0.6)を重視した多次元ルーブリック報酬で意思決定を整合
📊 実験結果(独自ベンチOmniGAIA)
・Orchestra-o1-GPT-5が72.8%で、2位のGemini-3-Proを10.3ポイント上回り最高
・オープンソースのOrchestra-o1-8B(Qwen3-8Bベース)は30.0%でOSS最高
・精度72.8%をコスト341.6で達成し、低精度な比較手法より安く高精度
・難易度別はEasy80.3%/Medium75.0%/Hard56.4%
#
AIエージェント# #
マルチモーダル#