🌳 AIはついに「単発の実験を回すツール」から、時間をまたいで知見を積み上げる“研究者そのもの”へと進化しはじめました。仮説を一本のツリーとして育てていく、新しい自律研究フレームワークが登場しています。
タイトル: Toward Generalist Autonomous Research via Hypothesis-Tree Refinement
URL:
🔍 概要
本研究は、長期的な自律研究を可能にするフレームワーク「Arbor」を提案しています。中核となるのは「Hypothesis-Tree Refinement(仮説ツリーの精緻化)」という考え方で、仮説・実験で得た成果物・証拠・そこから蒸留された知見を、すべて一本の永続的なツリー構造で結びつけます。実験を重ねるたびにこのツリーが更新され、次にどの方向を深掘りすべきかという探索フロンティアが継続的に磨かれていきます。
❓ 解決する課題
これまでのLLM研究エージェントは、1回きりの実験を回すのが精一杯でした。
・複数の試行をまたいで「どの仮説を深掘りすべきか」という大局的な戦略を維持できない
・ある実験で得た教訓が次に引き継がれず、毎回ゼロから探索してしまう
・有望な枝と行き止まりの枝を区別し、限られた計算資源を配分する仕組みが弱い
つまり、知見が複利的に積み上がらないことが大きな壁になっていました。
💡 方法論と提案手法
Arborは役割の異なる2種類のエージェントと、それらをつなぐ永続的なツリーで構成されます。
・長命なコーディネーター:研究全体の戦略を司る司令塔。仮説ツリーを俯瞰し、次に検証すべき仮説を決めます。セッションをまたいで生き続けるため、長期的な一貫性を担保します
・短命なエグゼキューター:個々の仮説を隔離された環境で実装・検証する実働部隊。検証が終われば役目を終えます
・仮説ツリー:仮説・証拠・成果物・知見を時間軸でリンクし、再利用可能な教訓を全体に伝播させます
これにより、研究が単発実験の集合から、戦略・実行・証拠が積み上がる累積的プロセスへと変わります。
🎯 ユースケース
継続的に実験を回して性能を高めていく、AutoMLや機械学習の自動最適化、さらには科学的な発見プロセスそのものの自動化が有望な応用先です。長期にわたる試行錯誤を、人手を介さずに戦略的に進められる点が魅力です。
📊 実験結果
Autonomous Optimizationの設定で、実在する6つの研究タスクを使って評価されました。
・6タスクすべてで最良のホールドアウト成績を達成
・CodexやClaude Codeと比べて、平均で2.5倍超のホールドアウトゲインを記録
・MLE-Bench LiteではGPT-5.5と組み合わせて86.36%のAny Medalを獲得し、比較対象の中で最強の結果を示しました
#
AIエージェント# #
自律研究#