AIの信頼性は「自己反省」では足りない。答える前に別のエージェントが“監査”する時代へ🔬
タイトル: Apodex-1.0: A Verification-Centric Agent Team for Discoverative Intelligence
URL:
🔬 概要
単一エージェントの推論ループから、検証を重視する分散エージェントチームへと転換したシステムです。ヘビーデューティモードでは、専門化・相互チェック・自己監査を行う非同期チームとして難問に挑みます。
❓ 解決する課題
難しくオープンエンドな問題での信頼性は、モデルの学習済み知識だけでは得られません。最も難しい研究課題は、モデルの能力ではなく「モデルが何と相互作用できるか」に制約されている、という問題意識が出発点です。
💡 方法論と提案手法
・メインエージェントが、独立した文脈とツールを持つ専門サブエージェントを非同期に起動
・共有レポートプールで並列探索の結果を集約(遅いタスクを待たない)
・検証エージェントチームが矛盾解消・ファクトチェック・草稿レビューを担当
・核心は「外部監査としての検証」。推論役と監査役を分離し、検証器は異議を唱える自由を持ちます
・単一タスクで最大150サブエージェント・15,000ステップ超を非同期協調
📊 実験結果
・BrowseComp 90.3 / DeepSearchQA 94.4 / BrowseComp-ZH 84.1
・FrontierScience-Research 46.7(競合+8)/ SuperChem 74.2(次点+12)
・ヘビーモードはベースをBrowseCompで+14.8、研究で+18.4押し上げ
・オープン版4B-SFTが30B級のOSSモデルを上回る
#
AIエージェント# #
DeepResearch#