🤝 「最強の1モデル」より「複数モデルのチーム」の方が強い。しかも安いモデルの寄せ集めが、単体のフロンティアモデルを上回る——OpenRouterがデータで示しました。
タイトル: Surpassing Frontier Performance with Fusion
URL:
💡 概要
Fusionは、複数のAIモデルの出力を1回のAPI呼び出しで合成するOpenRouterのツールです。参加モデルの「パネル」と、結果を束ねる「ジャッジモデル」を選ぶだけで、単一モデルを呼ぶ感覚でアンサンブルの力を使えます。
⚠️ 解決する課題
通常のベンチマークは事実想起や推論パズルは測れても、複数情報源を統合して引用付きで分析を書く「現実のリサーチ力」を評価できません。また単体モデルの性能限界をどう超えるかも課題でした。
🛠 方法論
・プロンプトをパネル各モデルに並列ディスパッチ(web検索・fetch有効)
・ジャッジが全回答を分析し「合意点・矛盾・部分カバー・独自の洞察・盲点」を構造化
・呼び出し元モデルがその統合分析をもとに最終回答を生成
・採点基準への汚染はドメイン除外で防止
📊 実験結果(DRACOベンチ100件)
・Fable 5 + GPT-5.5(Opus 4.8が合成)が69.0%で全単体モデルを上回り最高
・Opus 4.8の自己合成は65.5%で、単体58.8%から6.7ポイント向上
・安価な3モデルのバジェットパネルは64.7%で、GPT-5.5やOpus 4.8の単体を上回り、約50%低コスト
合成そのものが効くこと、安いモデルの多様性が単体フロンティアに匹敵することを示しました。
#
LLM# #
AIエージェント#