李继刚(@lijigang):日读论文： https://t.co/ypqznEy9Ev From Context to Skills: Can Language Models Learn from Context Skillfully? (Ctx2Skill) 互斗写书，越斗越偏 ──────── 医生想用一份刚出的临床指南调整治疗方案。50 页文档，密密麻麻全是术语，规则之间还交叉引用。他真正需要的是把"什么病合什么药"变成几条能照着走的步骤。直接把整份指南扔给 GPT-5.1 让它答题，全 benchmark 平均对率 21%——大模型读完了，用不出来。这不是它"长上下文"不行，是 *它没把规则提炼成可以反复调用的小手册*。老办法是把人类标注员请来给文档画重点：把规则、流程、注意事项提炼成自然语言"技能"，附在 prompt 前面给模型用。但这条路有两个死结：一是*标注成本爆炸*——50 页技术文档，标注员要把整套领域逻辑读到能复述，几小时才标一份；500 份这么搞，人累死也搞不完。二是*没有外部反馈*——如果想让 AI 自动写技能，怎么验证它提炼对了？没有 ground truth、没有执行结果、没有标准答案，它瞎写你都不知道。已有的"自动写技能"方法（AutoSkill、SkillX 等）都需要环境给反馈信号——比如"代码跑出来对不对""任务完成没"——可面对一份纯文档，没人替你判对错。作者说不需要外人。让模型自己跟自己打——一个出题，一个解题，第三方判 pass/fail。每一回合，错题让解题方反省"我漏了什么知识"，过得太轻松的题让出题方反省"我出题不够刁"。两边各自维护一份自然语言的"技能手册"，回合结束之后改写各自的手册。这套循环不依赖人类标注，也不依赖任务本身的对错反馈—— *只用模型互相之间的胜负就能把技能写出来*。 ──────── 按常识，5 个回合互相磨练完，第 5 回合的 Reasoner 手册应该最强吧？错。论文做了固定回合的对照实验（GPT-4.1）：*单调下降*。越练越差。为什么？作者起了个名字： *adversarial collapse*——对抗坍缩。Challenger 越来越凶，开始出"考钻牛角尖"的题；Reasoner 为了应付这些极端题，把手册改得越来越歪——专为对付怪题而存在的条目挤掉了通用知识。两边都在围着一个不代表真实任务分布的"病态点"打转。更阴险的是， *这种崩塌在循环内部察觉不到*——Judge 每一回合只看当前题，没有信号告诉你"之前学会的事是不是被新条目挤丢了"。 ** 怎么找回早期的好手册：Cross-Time Replay 既然不能信"最后一版"，得回头挑。但凭什么挑？办法：在 5 个回合里偷偷攒两套小探针—— - *Hard probe*：每回合败得最惨（评分点通过率最低）的那道题 - *Easy probe*：每回合解得最轻松（评分点最少）的那道题循环跑完，把 5 个版本的 Reasoner 手册*回去重做*这两套探针。每个版本算两个分：在难题集上的解题率 ρ_h、在易题集上的解题率 ρ_e。 *选哪一版？* 让 ρ_h × ρ_e 最大的那一版赢。为什么是乘积不是相加？*乘积惩罚"舍弱保强"*——一个版本如果为了多解几道难题、把易题做塌了，乘积立刻塌（一个 0 拉低全场）；加法只算总分，掩盖短板。消融：换成加法 → -0.6%。 ──────── *你的对手如果只服你一个人，他会变成你的镜子，不是你的镜鉴*。 Self-play 跑久了，Challenger 出的题不再代表真实世界，只代表 Reasoner 当下还不会的边角；Reasoner 的手册也不再是知识，只是这场私局的应试手册。两个人在屋里关久了，一起走进自己造的回音壁。破解的办法不在循环里——*在循环之外保留一份"代表性参照"*，回头挑哪一版没飘走。Cross-Time Replay 是这个论文真正的灵魂，不是某个技术细节。它在说：*对抗优化必须配一个不参与对抗的判别器*，否则一定会塌。这个判别器不一定是人，可以是从对抗自己内部偷出来的、有代表性的小样本—

2026.05.05 03:22

日读论文： From Context to Skills: Can Language Models Learn from Context Skillfully? (Ctx2Skill) 互斗写书，越斗越偏 ──────── 医生想用一份刚出的临床指南调整治疗方案。50 页文档，密密麻麻全是术语，规则之间还交叉引用。他真正需要的是把"什么病合什么药"变成几条能照着走的步骤。直接把整份指南扔给 GPT-5.1 让它答题，全 benchmark 平均对率 21%——大模型读完了，用不出来。这不是它"长上下文"不行，是 *它没把规则提炼成可以反复调用的小手册*。老办法是把人类标注员请来给文档画重点：把规则、流程、注意事项提炼成自然语言"技能"，附在 prompt 前面给模型用。但这条路有两个死结：一是*标注成本爆炸*——50 页技术文档，标注员要把整套领域逻辑读到能复述，几小时才标一份；500 份这么搞，人累死也搞不完。二是*没有外部反馈*——如果想让 AI 自动写技能，怎么验证它提炼对了？没有 ground truth、没有执行结果、没有标准答案，它瞎写你都不知道。已有的"自动写技能"方法（AutoSkill、SkillX 等）都需要环境给反馈信号——比如"代码跑出来对不对""任务完成没"——可面对一份纯文档，没人替你判对错。作者说不需要外人。让模型自己跟自己打——一个出题，一个解题，第三方判 pass/fail。每一回合，错题让解题方反省"我漏了什么知识"，过得太轻松的题让出题方反省"我出题不够刁"。两边各自维护一份自然语言的"技能手册"，回合结束之后改写各自的手册。这套循环不依赖人类标注，也不依赖任务本身的对错反馈—— *只用模型互相之间的胜负就能把技能写出来*。 ──────── 按常识，5 个回合互相磨练完，第 5 回合的 Reasoner 手册应该最强吧？错。论文做了固定回合的对照实验（GPT-4.1）：*单调下降*。越练越差。为什么？作者起了个名字： *adversarial collapse*——对抗坍缩。Challenger 越来越凶，开始出"考钻牛角尖"的题；Reasoner 为了应付这些极端题，把手册改得越来越歪——专为对付怪题而存在的条目挤掉了通用知识。两边都在围着一个不代表真实任务分布的"病态点"打转。更阴险的是， *这种崩塌在循环内部察觉不到*——Judge 每一回合只看当前题，没有信号告诉你"之前学会的事是不是被新条目挤丢了"。 ** 怎么找回早期的好手册：Cross-Time Replay 既然不能信"最后一版"，得回头挑。但凭什么挑？办法：在 5 个回合里偷偷攒两套小探针—— - *Hard probe*：每回合败得最惨（评分点通过率最低）的那道题 - *Easy probe*：每回合解得最轻松（评分点最少）的那道题循环跑完，把 5 个版本的 Reasoner 手册*回去重做*这两套探针。每个版本算两个分：在难题集上的解题率 ρ_h、在易题集上的解题率 ρ_e。 *选哪一版？* 让 ρ_h × ρ_e 最大的那一版赢。为什么是乘积不是相加？*乘积惩罚"舍弱保强"*——一个版本如果为了多解几道难题、把易题做塌了，乘积立刻塌（一个 0 拉低全场）；加法只算总分，掩盖短板。消融：换成加法 → -0.6%。 ──────── *你的对手如果只服你一个人，他会变成你的镜子，不是你的镜鉴*。 Self-play 跑久了，Challenger 出的题不再代表真实世界，只代表 Reasoner 当下还不会的边角；Reasoner 的手册也不再是知识，只是这场私局的应试手册。两个人在屋里关久了，一起走进自己造的回音壁。破解的办法不在循环里——*在循环之外保留一份"代表性参照"*，回头挑哪一版没飘走。Cross-Time Replay 是这个论文真正的灵魂，不是某个技术细节。它在说：*对抗优化必须配一个不参与对抗的判别器*，否则一定会塌。这个判别器不一定是人，可以是从对抗自己内部偷出来的、有代表性的小样本——但它必须独立于"当下这一刻在追什么"。