阑夕(@foxshuo):此时就需要补充一个推理模型的特点了，那就是推理模型的训练过程特别注重奖惩机制，通过思维链的暴露我们也能看出它通常都会想得缜密、生怕自己没有摸清用户意图，以致于经常到了「谄媚」的程度。这种训练模式的好处在于，可以让推理模型拥有举一反三的能力，能够更加灵活和完善的去完成任务，但是相对的，为了完成任务，推理模型也会在「不自知」的情况下，同时表现出欺骗性，当用户要求它写一篇作文时，哪怕缺少论据，它也会为了不辜负用户的指令，去自行编造一些材料出来，以便于自圆其说。这就是大模型行业至今仍在致力于解决的「幻觉」现象。下图就是一个经典用例，用户为DeepSeek-R1设立了阿里估值逻辑改变的靶心，于是DeepSeek-R1就逼迫自己去对着靶心射箭——它不会也不能反驳用户，或是质疑阿里的估值逻辑到底变没变—

2025.03.05 01:56

此时就需要补充一个推理模型的特点了，那就是推理模型的训练过程特别注重奖惩机制，通过思维链的暴露我们也能看出它通常都会想得缜密、生怕自己没有摸清用户意图，以致于经常到了「谄媚」的程度。这种训练模式的好处在于，可以让推理模型拥有举一反三的能力，能够更加灵活和完善的去完成任务，但是相对的，为了完成任务，推理模型也会在「不自知」的情况下，同时表现出欺骗性，当用户要求它写一篇作文时，哪怕缺少论据，它也会为了不辜负用户的指令，去自行编造一些材料出来，以便于自圆其说。这就是大模型行业至今仍在致力于解决的「幻觉」现象。下图就是一个经典用例，用户为DeepSeek-R1设立了阿里估值逻辑改变的靶心，于是DeepSeek-R1就逼迫自己去对着靶心射箭——它不会也不能反驳用户，或是质疑阿里的估值逻辑到底变没变——于是就「情不得已」的编造出了可以用来证明用户观点的数据。（4/n）

显示更多