cv usk(@cv_usk):言語モデルの推論ミスには「型」があった。トークンレベルの不確実性が、その“失敗のサイン”を映し出します🔬 タイトル: How Language Models Fail: Token-Level Signatures of Committed and Persistent Reasoning Failures URL: https://t.co/yAFg27oqN0 🔬 概要言語モデルが推論にどう失敗するのかを、トークンレベルの不確実性から分析した研究です。失敗が立ち現れるパターンを特徴づけ、検出に活かせる手がかりを示します。 ❓ 解決する課題モデルは推論に失敗しますが、そのメカニズムは未解明でした。「いつ・どう失敗が検出可能になるか」を理解することが、信頼性向上に不可欠です。 💡 方法論と提案手法トークン単位の不確実性分析から、2つの失敗パターンを特定しました。・コミット型の失敗：早い段階で誤った推論経路に固執する。診断上の「コミット点」があり、それを過ぎるとトークンを足すほど検出が難しくなる・持続的な不確実性：生成全体で不確実性が徐々に蓄積し、成功と失敗の区別には全トレースが必要複数のモデル×データセットでシグナルを分析しました。 📊 実験結果・23のモデル×データセット構成で検証・反証可能な予測が23例中20例で成立（偶然を大きく上回る）・不確実性シグナルが自己整合性を補完する場面と、冗長になる場面を識別 #LLM #信頼性

2026.06.14 04:25

言語モデルの推論ミスには「型」があった。トークンレベルの不確実性が、その“失敗のサイン”を映し出します🔬 タイトル: How Language Models Fail: Token-Level Signatures of Committed and Persistent Reasoning Failures URL: 🔬 概要言語モデルが推論にどう失敗するのかを、トークンレベルの不確実性から分析した研究です。失敗が立ち現れるパターンを特徴づけ、検出に活かせる手がかりを示します。 ❓ 解決する課題モデルは推論に失敗しますが、そのメカニズムは未解明でした。「いつ・どう失敗が検出可能になるか」を理解することが、信頼性向上に不可欠です。 💡 方法論と提案手法トークン単位の不確実性分析から、2つの失敗パターンを特定しました。・コミット型の失敗：早い段階で誤った推論経路に固執する。診断上の「コミット点」があり、それを過ぎるとトークンを足すほど検出が難しくなる・持続的な不確実性：生成全体で不確実性が徐々に蓄積し、成功と失敗の区別には全トレースが必要複数のモデル×データセットでシグナルを分析しました。 📊 実験結果・23のモデル×データセット構成で検証・反証可能な予測が23例中20例で成立（偶然を大きく上回る）・不確実性シグナルが自己整合性を補完する場面と、冗長になる場面を識別 #LLM# #信頼性#