此时就需要补充一个推理模型的特点了,那就是推理模型的训练过程特别注重奖惩机制,通过思维链的暴露我们也能看出它通常都会想得缜密、生怕自己没有摸清用户意图,以致于经常到了「谄媚」的程度。
这种训练模式的好处在于,可以让推理模型拥有举一反三的能力,能够更加灵活和完善的去完成任务,但是相对的,为了完成任务,推理模型也会在「不自知」的情况下,同时表现出欺骗性,当用户要求它写一篇作文时,哪怕缺少论据,它也会为了不辜负用户的指令,去自行编造一些材料出来,以便于自圆其说。
这就是大模型行业至今仍在致力于解决的「幻觉」现象。
下图就是一个经典用例,用户为DeepSeek-R1设立了阿里估值逻辑改变的靶心,于是DeepSeek-R1就逼迫自己去对着靶心射箭——它不会也不能反驳用户,或是质疑阿里的估值逻辑到底变没变——于是就「情不得已」的编造出了可以用来证明用户观点的数据。(4/n)
显示更多