阑夕(@foxshuo):在技术专家看来，DeepSeek-R1-Zero要比R1更加漂亮，因为人工干预的成分更低，纯粹是模型自己摸索出了在推理几千步里寻找到最优解的流程，对先验知识的依赖没那么高，但因为没有做对齐处理，R1-Zero基本上没法交付给用户使用，比如它会各种语言夹杂着输出，所以实际上DeepSeek在大众市场得到认同的R1，还是用了蒸馏、微调甚至预先植入思维链这些旧手段； - 这里涉及到一个能力和表现并不同步的问题，能力最好的模型未必是表现最好的，反之亦然，R1表现出色很大程度上还是因为人工使劲的方向到位，在训练语料上R1没有独占的，大家的语料库里都会包含古典诗词那些，不存在R1懂得更多，真正的原因可能在于数据标注这块，据说DeepSeek找了北大中文系的学生来做标注，这会显著提高文采表达的奖励函数，一般行业里不会太喜欢用文科生，包括梁文锋自己有时也会做标注的说法不只是说明他的热情，而是标注工程早就到了需要专业做题家去辅导AI的地步，OpenAI也是付100-200美金的时薪去请博士生为o1做标注； - 数据、算力、算法是大模型行业的三个飞轮，这一波的主要突破来自算法，DeepSeek-R1发现了一个误区，就是传统算法里对于价值函数的重视可能是陷阱，价值函数倾向于对推理过程的每一步去做判断，由此事无巨细的把模型向正确的道路上引导，比如模型在解答1+1等于几的时候，当它产生1+1=3的幻觉了，就开始惩罚它，有点像电击疗法，不许它犯错； - 这种算法理论上没毛病，但也非常完美主义，不是每道题目都是1+1这样简单的，尤其是在长思维链里动辄推理几千个Token序列的情况下，要对每一步都进行监督，投入产出比会变得非常低，所以DeepSeek做出了一个违背祖训的决定，不再用价值函数去满足研究时的强迫症，只对答案进行打分，让模型自己去解决怎么用正确的步骤得到答案，即便它存在1+1=3的解题思路，也不去过度纠正，它反而会在推理过程里意识到不对劲，发现这么算下去得不出正确答案，然后做出自我纠正； - 算法是DeepSeek之于整个行业的最大创新，包括要怎么分辨模型是在模仿还是推理，我记得o1出来后有很多人声称通过提示词让通用模型也能输出思维链，但那些模型都没有推理能力，实际上就是模仿，它还是按照常规模式给出了答案，但是因为要满足用户要求，又回过头基于答案给出思路，这就是模仿，是先射箭后画靶的无意义动作，而DeepSeek在对抗模型破解奖励方面也做了很多努力，主要就是针对模型变得鸡贼的问题，它逐渐猜到怎么思考会得到奖励，却没有真的理解为什么要这么思考；（3/n）

2025.02.11 10:53

在技术专家看来，DeepSeek-R1-Zero要比R1更加漂亮，因为人工干预的成分更低，纯粹是模型自己摸索出了在推理几千步里寻找到最优解的流程，对先验知识的依赖没那么高，但因为没有做对齐处理，R1-Zero基本上没法交付给用户使用，比如它会各种语言夹杂着输出，所以实际上DeepSeek在大众市场得到认同的R1，还是用了蒸馏、微调甚至预先植入思维链这些旧手段； - 这里涉及到一个能力和表现并不同步的问题，能力最好的模型未必是表现最好的，反之亦然，R1表现出色很大程度上还是因为人工使劲的方向到位，在训练语料上R1没有独占的，大家的语料库里都会包含古典诗词那些，不存在R1懂得更多，真正的原因可能在于数据标注这块，据说DeepSeek找了北大中文系的学生来做标注，这会显著提高文采表达的奖励函数，一般行业里不会太喜欢用文科生，包括梁文锋自己有时也会做标注的说法不只是说明他的热情，而是标注工程早就到了需要专业做题家去辅导AI的地步，OpenAI也是付100-200美金的时薪去请博士生为o1做标注； - 数据、算力、算法是大模型行业的三个飞轮，这一波的主要突破来自算法，DeepSeek-R1发现了一个误区，就是传统算法里对于价值函数的重视可能是陷阱，价值函数倾向于对推理过程的每一步去做判断，由此事无巨细的把模型向正确的道路上引导，比如模型在解答1+1等于几的时候，当它产生1+1=3的幻觉了，就开始惩罚它，有点像电击疗法，不许它犯错； - 这种算法理论上没毛病，但也非常完美主义，不是每道题目都是1+1这样简单的，尤其是在长思维链里动辄推理几千个Token序列的情况下，要对每一步都进行监督，投入产出比会变得非常低，所以DeepSeek做出了一个违背祖训的决定，不再用价值函数去满足研究时的强迫症，只对答案进行打分，让模型自己去解决怎么用正确的步骤得到答案，即便它存在1+1=3的解题思路，也不去过度纠正，它反而会在推理过程里意识到不对劲，发现这么算下去得不出正确答案，然后做出自我纠正； - 算法是DeepSeek之于整个行业的最大创新，包括要怎么分辨模型是在模仿还是推理，我记得o1出来后有很多人声称通过提示词让通用模型也能输出思维链，但那些模型都没有推理能力，实际上就是模仿，它还是按照常规模式给出了答案，但是因为要满足用户要求，又回过头基于答案给出思路，这就是模仿，是先射箭后画靶的无意义动作，而DeepSeek在对抗模型破解奖励方面也做了很多努力，主要就是针对模型变得鸡贼的问题，它逐渐猜到怎么思考会得到奖励，却没有真的理解为什么要这么思考；（3/n）