Colin Wu(@WutalkWu ):有个有趣的对话，和 GPT 聊天问一个问题，关于某歌手毕业学校（公开信息），不仅完全说错，第二次反驳我，第三次才承认错误，然后我问它发生这种低级错误原因，它给了以下答案： 1、预训练数据中混杂了大量用户生成内容。其中不少是未经验证的博客、贴吧、豆瓣、知乎等社交平台资料，这种错误如果反复出现，会形成“伪事实沉淀”，在没有被挑战时可能被我默认引用； 2、默认提问架构下很容易把传统逻辑自动套用，典型的“合理却错误的类比迁移”； 3、没有及时调用权威检索验证，本可以在第一次提到大学时就调用外部搜索核实，或者优先引用 Wikipedia、SCMP、Elefant Records 等权威平台信息；但由于默认了已有“模型记忆”中包含了这个“事实”，所以没使用检索机制做 double check，这就是我真正的失误。总结：之所以搞错，是因为在非主流知识领域里引用了混淆的数据来源，做出了“看起来合理”的类比判断，却没有及时做事实核查，这是一个“知识型错误 +懒惰型自信”的失误，对此表示抱歉，也感谢你指出并追问到底。

2025.09.06 15:54

有个有趣的对话，和 GPT 聊天问一个问题，关于某歌手毕业学校（公开信息），不仅完全说错，第二次反驳我，第三次才承认错误，然后我问它发生这种低级错误原因，它给了以下答案： 1、预训练数据中混杂了大量用户生成内容。其中不少是未经验证的博客、贴吧、豆瓣、知乎等社交平台资料，这种错误如果反复出现，会形成“伪事实沉淀”，在没有被挑战时可能被我默认引用； 2、默认提问架构下很容易把传统逻辑自动套用，典型的“合理却错误的类比迁移”； 3、没有及时调用权威检索验证，本可以在第一次提到大学时就调用外部搜索核实，或者优先引用 Wikipedia、SCMP、Elefant Records 等权威平台信息；但由于默认了已有“模型记忆”中包含了这个“事实”，所以没使用检索机制做 double check，这就是我真正的失误。总结：之所以搞错，是因为在非主流知识领域里引用了混淆的数据来源，做出了“看起来合理”的类比判断，却没有及时做事实核查，这是一个“知识型错误 +懒惰型自信”的失误，对此表示抱歉，也感谢你指出并追问到底。