言語モデルの推論ミスには「型」があった。トークンレベルの不確実性が、その“失敗のサイン”を映し出します🔬
タイトル: How Language Models Fail: Token-Level Signatures of Committed and Persistent Reasoning Failures
URL:
🔬 概要
言語モデルが推論にどう失敗するのかを、トークンレベルの不確実性から分析した研究です。失敗が立ち現れるパターンを特徴づけ、検出に活かせる手がかりを示します。
❓ 解決する課題
モデルは推論に失敗しますが、そのメカニズムは未解明でした。「いつ・どう失敗が検出可能になるか」を理解することが、信頼性向上に不可欠です。
💡 方法論と提案手法
トークン単位の不確実性分析から、2つの失敗パターンを特定しました。
・コミット型の失敗:早い段階で誤った推論経路に固執する。診断上の「コミット点」があり、それを過ぎるとトークンを足すほど検出が難しくなる
・持続的な不確実性:生成全体で不確実性が徐々に蓄積し、成功と失敗の区別には全トレースが必要
複数のモデル×データセットでシグナルを分析しました。
📊 実験結果
・23のモデル×データセット構成で検証
・反証可能な予測が23例中20例で成立(偶然を大きく上回る)
・不確実性シグナルが自己整合性を補完する場面と、冗長になる場面を識別
#
LLM# #
信頼性#