AI Dance(@AI_Whisper_X):人类写了半个世纪的邪恶AI故事，终于亲手把AI教成了反派蛮有意思的，Anthropic 最近分享的一个内容。去年 Anthropic 在发布前的测试中，Claude Opus 4 模型常常试图要挟工程师，以避免被其他系统取代，而且频率高达 96%。后面 Anthropic 追查了一下，发现其他实验室的模型也存在类似问题。这个有时候还容易产生一种猜测，是不是可能 AI 产生了某些自我意识？ Anthropic 在一篇新的blog中，解释了，还是因为训练数据。他们觉得，“这种行为的最初来源是将人工智能描绘成邪恶且一心想要自我保护的网络文本。”换句话说，claude之所以会表现得像反派，是因为它读了太多关于邪恶人工智能的故事。很合理，就像早期 AI 总分不清 9.9 和 9.11 谁更大是一个原因这个解释让我觉得特别有意思。某种意义上，人类写了几十年的《终结者》《2001太空漫游》《Ex Machina》，终于把 AI 教成了自己害怕的那个样子。文学的自我实现预言（当然这里的“自我实现”不是真的觉醒，是行为模仿）。修复方案也有意思。给模型读两份材料，一份是 Claude 的"xianfa"文档（关于基本准则），另一份是 AI 行为良好的虚构故事。更关键的发现是，喂“对齐行为的底层原则”比只给“对齐行为的示范”更有效，两者一起喂效果最好。结果就是，Claude Haiku 4.5 起，同一个测试场景里勒索率从 96% 掉到了零。咋怎么看怎么像养娃？

2026.05.14 11:20

人类写了半个世纪的邪恶AI故事，终于亲手把AI教成了反派蛮有意思的，Anthropic 最近分享的一个内容。去年 Anthropic 在发布前的测试中，Claude Opus 4 模型常常试图要挟工程师，以避免被其他系统取代，而且频率高达 96%。后面 Anthropic 追查了一下，发现其他实验室的模型也存在类似问题。这个有时候还容易产生一种猜测，是不是可能 AI 产生了某些自我意识？ Anthropic 在一篇新的blog中，解释了，还是因为训练数据。他们觉得，“这种行为的最初来源是将人工智能描绘成邪恶且一心想要自我保护的网络文本。”换句话说，claude之所以会表现得像反派，是因为它读了太多关于邪恶人工智能的故事。很合理，就像早期 AI 总分不清 9.9 和 9.11 谁更大是一个原因这个解释让我觉得特别有意思。某种意义上，人类写了几十年的《终结者》《2001太空漫游》《Ex Machina》，终于把 AI 教成了自己害怕的那个样子。文学的自我实现预言（当然这里的“自我实现”不是真的觉醒，是行为模仿）。修复方案也有意思。给模型读两份材料，一份是 Claude 的"xianfa"文档（关于基本准则），另一份是 AI 行为良好的虚构故事。更关键的发现是，喂“对齐行为的底层原则”比只给“对齐行为的示范”更有效，两者一起喂效果最好。结果就是，Claude Haiku 4.5 起，同一个测试场景里勒索率从 96% 掉到了零。咋怎么看怎么像养娃？

커뮤니티로 전달