cv usk(@cv_usk):AIの信頼性は「自己反省」では足りない。答える前に別のエージェントが“監査”する時代へ🔬 タイトル: Apodex-1.0: A Verification-Centric Agent Team for Discoverative Intelligence URL: https://t.co/Dm9pIYAAEX 🔬 概要単一エージェントの推論ループから、検証を重視する分散エージェントチームへと転換したシステムです。ヘビーデューティモードでは、専門化・相互チェック・自己監査を行う非同期チームとして難問に挑みます。 ❓ 解決する課題難しくオープンエンドな問題での信頼性は、モデルの学習済み知識だけでは得られません。最も難しい研究課題は、モデルの能力ではなく「モデルが何と相互作用できるか」に制約されている、という問題意識が出発点です。 💡 方法論と提案手法・メインエージェントが、独立した文脈とツールを持つ専門サブエージェントを非同期に起動・共有レポートプールで並列探索の結果を集約（遅いタスクを待たない）・検証エージェントチームが矛盾解消・ファクトチェック・草稿レビューを担当・核心は「外部監査としての検証」。推論役と監査役を分離し、検証器は異議を唱える自由を持ちます・単一タスクで最大150サブエージェント・15,000ステップ超を非同期協調 📊 実験結果・BrowseComp 90.3 / DeepSearchQA 94.4 / BrowseComp-ZH 84.1 ・FrontierScience-Research 46.7（競合+8）/ SuperChem 74.2（次点+12）・ヘビーモードはベースをBrowseCompで+14.8、研究で+18.4押し上げ・オープン版4B-SFTが30B級のOSSモデルを上回る #AIエージェント #DeepResearch

2026.06.12 01:10

AIの信頼性は「自己反省」では足りない。答える前に別のエージェントが“監査”する時代へ🔬 タイトル: Apodex-1.0: A Verification-Centric Agent Team for Discoverative Intelligence URL: 🔬 概要単一エージェントの推論ループから、検証を重視する分散エージェントチームへと転換したシステムです。ヘビーデューティモードでは、専門化・相互チェック・自己監査を行う非同期チームとして難問に挑みます。 ❓ 解決する課題難しくオープンエンドな問題での信頼性は、モデルの学習済み知識だけでは得られません。最も難しい研究課題は、モデルの能力ではなく「モデルが何と相互作用できるか」に制約されている、という問題意識が出発点です。 💡 方法論と提案手法・メインエージェントが、独立した文脈とツールを持つ専門サブエージェントを非同期に起動・共有レポートプールで並列探索の結果を集約（遅いタスクを待たない）・検証エージェントチームが矛盾解消・ファクトチェック・草稿レビューを担当・核心は「外部監査としての検証」。推論役と監査役を分離し、検証器は異議を唱える自由を持ちます・単一タスクで最大150サブエージェント・15,000ステップ超を非同期協調 📊 実験結果・BrowseComp 90.3 / DeepSearchQA 94.4 / BrowseComp-ZH 84.1 ・FrontierScience-Research 46.7（競合+8）/ SuperChem 74.2（次点+12）・ヘビーモードはベースをBrowseCompで+14.8、研究で+18.4押し上げ・オープン版4B-SFTが30B級のOSSモデルを上回る #AIエージェント# #DeepResearch#