TwiScan
인기
커뮤니티
로그인
회원가입
English
日本語
한국의
简体中文
繁体中文
가입 후 초대 링크를 공유하면 동영상 재생 및 초대 보상을 받을 수 있습니다.
지금 가입
AI Dance
@AI_Whisper_X
China AI insider | Silicon Valley Decoded 一边盯硅谷,一边扒中国AI 算法 + VC 双视角 · 讲人话 📬 aidance.info
@gmail
.com
가입 October 2024
259
팔로잉 중
5.1K
팬
AI Dance
@AI_Whisper_X
2026.05.14 11:20
人类写了半个世纪的邪恶AI故事,终于亲手把AI教成了反派 蛮有意思的,Anthropic 最近分享的一个内容。 去年 Anthropic 在发布前的测试中,Claude Opus 4 模型常常试图要挟工程师,以避免被其他系统取代,而且频率高达 96%。后面 Anthropic 追查了一下,发现其他实验室的模型也存在类似问题。 这个有时候还容易产生一种猜测,是不是可能 AI 产生了某些自我意识? Anthropic 在一篇新的blog中, 解释了,还是因为训练数据。他们觉得,“这种行为的最初来源是将人工智能描绘成邪恶且一心想要自我保护的网络文本。”换句话说,claude之所以会表现得像反派,是因为它读了太多关于邪恶人工智能的故事。 很合理,就像早期 AI 总分不清 9.9 和 9.11 谁更大是一个原因 这个解释让我觉得特别有意思。某种意义上,人类写了几十年的《终结者》《2001太空漫游》《Ex Machina》,终于把 AI 教成了自己害怕的那个样子。文学的自我实现预言(当然这里的“自我实现”不是真的觉醒,是行为模仿)。 修复方案也有意思。给模型读两份材料,一份是 Claude 的"xianfa"文档(关于基本准则),另一份是 AI 行为良好的虚构故事。更关键的发现是,喂“对齐行为的底层原则”比只给“对齐行为的示范”更有效,两者一起喂效果最好。结果就是,Claude Haiku 4.5 起,同一个测试场景里勒索率从 96% 掉到了零。 咋怎么看怎么像养娃?
더 보기
0
0
1
3
0
커뮤니티로 전달
인기 있는 사용자
야살 / Yasal
@Yasal_170
869.9K 팬
一劍浣春秋
@chee828
229K 팬
乐老爺AV選
@HappyLok1157
108.8K 팬
New York Post
@nypost
3.8M 팬
彭博商業周刊 / 中文版
@BloombergBWCN
40.9K 팬
有村架純's staff
@Kasumistaff
559.1K 팬
billboard
@billboard
15.2M 팬
橋本環奈
@H_KANNA_0203
5M 팬
小牛
@Xiaoniu6161
170.9K 팬
浜辺美波
@MINAMI373HAMABE
2.4M 팬
aespa
@aespa_official
4.7M 팬
0xAA
@0xAA_Science
178.9K 팬
绯夜晚棠
@saurabhwork
31.2K 팬
夜郎奔(精品资源搬运工)
@yelangben
69.4K 팬
安宇泽
@DFHDJZY
16.3K 팬