登録して招待リンクを共有すると、動画再生報酬と紹介報酬を獲得できます。

阑夕
@foxshuo
说什么是你的自由,做什么是我的权利,如果我做的得不到你的赞同,那就对了,否则我将与你一样平淡无奇。
参加 August 2009
774 フォロー中    172.9K ファン
在技术专家看来,DeepSeek-R1-Zero要比R1更加漂亮,因为人工干预的成分更低,纯粹是模型自己摸索出了在推理几千步里寻找到最优解的流程,对先验知识的依赖没那么高,但因为没有做对齐处理,R1-Zero基本上没法交付给用户使用,比如它会各种语言夹杂着输出,所以实际上DeepSeek在大众市场得到认同的R1,还是用了蒸馏、微调甚至预先植入思维链这些旧手段; - 这里涉及到一个能力和表现并不同步的问题,能力最好的模型未必是表现最好的,反之亦然,R1表现出色很大程度上还是因为人工使劲的方向到位,在训练语料上R1没有独占的,大家的语料库里都会包含古典诗词那些,不存在R1懂得更多,真正的原因可能在于数据标注这块,据说DeepSeek找了北大中文系的学生来做标注,这会显著提高文采表达的奖励函数,一般行业里不会太喜欢用文科生,包括梁文锋自己有时也会做标注的说法不只是说明他的热情,而是标注工程早就到了需要专业做题家去辅导AI的地步,OpenAI也是付100-200美金的时薪去请博士生为o1做标注; - 数据、算力、算法是大模型行业的三个飞轮,这一波的主要突破来自算法,DeepSeek-R1发现了一个误区,就是传统算法里对于价值函数的重视可能是陷阱,价值函数倾向于对推理过程的每一步去做判断,由此事无巨细的把模型向正确的道路上引导,比如模型在解答1+1等于几的时候,当它产生1+1=3的幻觉了,就开始惩罚它,有点像电击疗法,不许它犯错; - 这种算法理论上没毛病,但也非常完美主义,不是每道题目都是1+1这样简单的,尤其是在长思维链里动辄推理几千个Token序列的情况下,要对每一步都进行监督,投入产出比会变得非常低,所以DeepSeek做出了一个违背祖训的决定,不再用价值函数去满足研究时的强迫症,只对答案进行打分,让模型自己去解决怎么用正确的步骤得到答案,即便它存在1+1=3的解题思路,也不去过度纠正,它反而会在推理过程里意识到不对劲,发现这么算下去得不出正确答案,然后做出自我纠正; - 算法是DeepSeek之于整个行业的最大创新,包括要怎么分辨模型是在模仿还是推理,我记得o1出来后有很多人声称通过提示词让通用模型也能输出思维链,但那些模型都没有推理能力,实际上就是模仿,它还是按照常规模式给出了答案,但是因为要满足用户要求,又回过头基于答案给出思路,这就是模仿,是先射箭后画靶的无意义动作,而DeepSeek在对抗模型破解奖励方面也做了很多努力,主要就是针对模型变得鸡贼的问题,它逐渐猜到怎么思考会得到奖励,却没有真的理解为什么要这么思考;(3/n)
もっと見る