AIの「思考の過程」を読んで挙動を当てる——実はそれ、あまり当てになりません🔮 挙動予測そのものを学習タスクにする発想が新しいです。
タイトル: Forecasting Future Behavior as a Learning Task
URL:
🔮 概要
大規模推論モデル(LRM)が新しい入力にどう振る舞うかを予測する手法です。明示的な説明に頼るのではなく、単一の推論軌跡を分析して出力を予測する訓練可能なモデル「Behavior Forecasters」を導入します。
❓ 解決する課題
LRMの挙動を理解・予測したいですが、従来手法には限界がありました。
・既存の説明手法は、長い推論軌跡にうまくスケールしません
・推論軌跡を自然言語として読むと、その内容は信頼できないことが多いです
モデルが書いた思考が、実際の挙動を正しく反映するとは限らないのです。
💡 方法論と提案手法
・挙動の予測そのものを「学習可能なタスク」として扱います
・訓練データはLRMへの問い合わせから直接得られ、人間のアノテーションは不要です
・推論時は単一のフォワードパスで動作します
・2つの予測タスクで具体化:再実行をまたいだ答えの一貫性の推定、入力変更が出力に与える影響の予測
・バックボーンのエンドツーエンドのファインチューニングと、対象LRMの重みからの初期化が不可欠でした
📊 実験結果
・Behavior Forecastersは、「素朴な読み手」としてのGPT-5.4やClaude Opus-4.6を上回りました
・しかも推論コストはそれらのごく一部で、より高い精度を達成しました
#
LLM解釈可能性# #
推論モデル#