TwiScan
热门
社区
登录
注册
English
日本語
한국의
简体中文
繁体中文
注册并分享邀请链接,可获得视频播放与邀请奖励。
立即注册
AI Dance
@AI_Whisper_X
China AI insider | Silicon Valley Decoded 一边盯硅谷,一边扒中国AI 算法 + VC 双视角 · 讲人话 📬 aidance.info
@gmail
.com
加入 October 2024
259
正在关注
5.1K
粉丝
AI Dance
@AI_Whisper_X
2026.05.14 11:20
人类写了半个世纪的邪恶AI故事,终于亲手把AI教成了反派 蛮有意思的,Anthropic 最近分享的一个内容。 去年 Anthropic 在发布前的测试中,Claude Opus 4 模型常常试图要挟工程师,以避免被其他系统取代,而且频率高达 96%。后面 Anthropic 追查了一下,发现其他实验室的模型也存在类似问题。 这个有时候还容易产生一种猜测,是不是可能 AI 产生了某些自我意识? Anthropic 在一篇新的blog中, 解释了,还是因为训练数据。他们觉得,“这种行为的最初来源是将人工智能描绘成邪恶且一心想要自我保护的网络文本。”换句话说,claude之所以会表现得像反派,是因为它读了太多关于邪恶人工智能的故事。 很合理,就像早期 AI 总分不清 9.9 和 9.11 谁更大是一个原因 这个解释让我觉得特别有意思。某种意义上,人类写了几十年的《终结者》《2001太空漫游》《Ex Machina》,终于把 AI 教成了自己害怕的那个样子。文学的自我实现预言(当然这里的“自我实现”不是真的觉醒,是行为模仿)。 修复方案也有意思。给模型读两份材料,一份是 Claude 的"xianfa"文档(关于基本准则),另一份是 AI 行为良好的虚构故事。更关键的发现是,喂“对齐行为的底层原则”比只给“对齐行为的示范”更有效,两者一起喂效果最好。结果就是,Claude Haiku 4.5 起,同一个测试场景里勒索率从 96% 掉到了零。 咋怎么看怎么像养娃?
显示更多
0
0
1
3
0
转发到社区
热门用户
狗爹和小桃(主页完整)
@cccxxxyyiii
38.1K 粉丝
sunny
@77sunnyx
869.6K 粉丝
乐老爺AV選
@HappyLok1157
108.8K 粉丝
一劍浣春秋
@chee828
229K 粉丝
王若瑾
@wyycat1995
220.7K 粉丝
彭博商業周刊 / 中文版
@BloombergBWCN
40.9K 粉丝
李老师不是你老师
@whyyoutouzhele
2.2M 粉丝
小牛
@Xiaoniu6161
170.9K 粉丝
Aqua水淼
@aqua_cosplay
1.9M 粉丝
Fan Bingbing 范冰冰
@realBingbingFan
375.4K 粉丝
东京不太热
@tiansai25497
286K 粉丝
Natsume✨枣糕
@natsume0v0
1.2M 粉丝
安宇泽
@DFHDJZY
16.3K 粉丝
绿帽俱乐部
@lvmao520u
414.9K 粉丝
绯夜晚棠
@saurabhwork
31.2K 粉丝