가입 후 초대 링크를 공유하면 동영상 재생 및 초대 보상을 받을 수 있습니다.

cv usk
@cv_usk
AI / Software Research Notes AI Agent, LLMOps, MLOps, Software Architecture
가입 May 2026
236 팔로잉 중    211
AIの信頼性は「自己反省」では足りない。答える前に別のエージェントが“監査”する時代へ🔬 タイトル: Apodex-1.0: A Verification-Centric Agent Team for Discoverative Intelligence URL: 🔬 概要 単一エージェントの推論ループから、検証を重視する分散エージェントチームへと転換したシステムです。ヘビーデューティモードでは、専門化・相互チェック・自己監査を行う非同期チームとして難問に挑みます。 ❓ 解決する課題 難しくオープンエンドな問題での信頼性は、モデルの学習済み知識だけでは得られません。最も難しい研究課題は、モデルの能力ではなく「モデルが何と相互作用できるか」に制約されている、という問題意識が出発点です。 💡 方法論と提案手法 ・メインエージェントが、独立した文脈とツールを持つ専門サブエージェントを非同期に起動 ・共有レポートプールで並列探索の結果を集約(遅いタスクを待たない) ・検証エージェントチームが矛盾解消・ファクトチェック・草稿レビューを担当 ・核心は「外部監査としての検証」。推論役と監査役を分離し、検証器は異議を唱える自由を持ちます ・単一タスクで最大150サブエージェント・15,000ステップ超を非同期協調 📊 実験結果 ・BrowseComp 90.3 / DeepSearchQA 94.4 / BrowseComp-ZH 84.1 ・FrontierScience-Research 46.7(競合+8)/ SuperChem 74.2(次点+12) ・ヘビーモードはベースをBrowseCompで+14.8、研究で+18.4押し上げ ・オープン版4B-SFTが30B級のOSSモデルを上回る #AIエージェント# #DeepResearch#
더 보기