cv usk(@cv_usk):🎼 テキスト・画像・音声・動画が入り混じる難タスクを、専門サブエージェントに分解して並列で解く——巨大単体モデルより「適材適所のチーム」が勝つことを示した研究です。タイトル: Orchestra-o1: Omnimodal Agent Orchestration URL: https://t.co/etRxth6EnS 💡 概要 Orchestra-o1は、複数モダリティが同時に絡むタスクを、高レベルのオーケストレーションと低レベルのツール実行に分離して解く階層型エージェント枠組みです。モダリティに応じてサブエージェントを専門化し、並列実行で効率を高めます。 ⚠️ 解決する課題既存のオーケストレーションは扱えるモダリティが限られ、テキスト・画像・音声・動画が共存して相互作用するシナリオに汎化できませんでした。 🛠 方法論と提案手法・バックエンドを「スキルベクトル＋コスト/レイテンシ」で表し、コスト考慮で選択・知覚系（画像/音声/動画解析）と行動系（検索/閲覧/コード実行）のツールを割り当て・サブゴールの潜在依存グラフを作り独立タスクを並列実行・学習はDA-GRPO：最終回答でなくステップ単位を評価し、decision quality(0.6)を重視した多次元ルーブリック報酬で意思決定を整合 📊 実験結果（独自ベンチOmniGAIA）・Orchestra-o1-GPT-5が72.8%で、2位のGemini-3-Proを10.3ポイント上回り最高・オープンソースのOrchestra-o1-8B（Qwen3-8Bベース）は30.0%でOSS最高・精度72.8%をコスト341.6で達成し、低精度な比較手法より安く高精度・難易度別はEasy80.3%/Medium75.0%/Hard56.4% #AIエージェント #マルチモーダル

2026.06.15 21:37

🎼 テキスト・画像・音声・動画が入り混じる難タスクを、専門サブエージェントに分解して並列で解く——巨大単体モデルより「適材適所のチーム」が勝つことを示した研究です。タイトル: Orchestra-o1: Omnimodal Agent Orchestration URL: 💡 概要 Orchestra-o1は、複数モダリティが同時に絡むタスクを、高レベルのオーケストレーションと低レベルのツール実行に分離して解く階層型エージェント枠組みです。モダリティに応じてサブエージェントを専門化し、並列実行で効率を高めます。 ⚠️ 解決する課題既存のオーケストレーションは扱えるモダリティが限られ、テキスト・画像・音声・動画が共存して相互作用するシナリオに汎化できませんでした。 🛠 方法論と提案手法・バックエンドを「スキルベクトル＋コスト/レイテンシ」で表し、コスト考慮で選択・知覚系（画像/音声/動画解析）と行動系（検索/閲覧/コード実行）のツールを割り当て・サブゴールの潜在依存グラフを作り独立タスクを並列実行・学習はDA-GRPO：最終回答でなくステップ単位を評価し、decision quality(0.6)を重視した多次元ルーブリック報酬で意思決定を整合 📊 実験結果（独自ベンチOmniGAIA）・Orchestra-o1-GPT-5が72.8%で、2位のGemini-3-Proを10.3ポイント上回り最高・オープンソースのOrchestra-o1-8B（Qwen3-8Bベース）は30.0%でOSS最高・精度72.8%をコスト341.6で達成し、低精度な比較手法より安く高精度・難易度別はEasy80.3%/Medium75.0%/Hard56.4% #AIエージェント# #マルチモーダル#