TwiScan
人気
コミュニティ
ログイン
登録
English
日本語
한국의
简体中文
繁体中文
登録して招待リンクを共有すると、動画再生報酬と紹介報酬を獲得できます。
今すぐ登録
AI Dance
@AI_Whisper_X
China AI insider | Silicon Valley Decoded 一边盯硅谷,一边扒中国AI 算法 + VC 双视角 · 讲人话 📬 aidance.info
@gmail
.com
参加 October 2024
259
フォロー中
5.1K
ファン
AI Dance
@AI_Whisper_X
2026.05.14 11:20
人类写了半个世纪的邪恶AI故事,终于亲手把AI教成了反派 蛮有意思的,Anthropic 最近分享的一个内容。 去年 Anthropic 在发布前的测试中,Claude Opus 4 模型常常试图要挟工程师,以避免被其他系统取代,而且频率高达 96%。后面 Anthropic 追查了一下,发现其他实验室的模型也存在类似问题。 这个有时候还容易产生一种猜测,是不是可能 AI 产生了某些自我意识? Anthropic 在一篇新的blog中, 解释了,还是因为训练数据。他们觉得,“这种行为的最初来源是将人工智能描绘成邪恶且一心想要自我保护的网络文本。”换句话说,claude之所以会表现得像反派,是因为它读了太多关于邪恶人工智能的故事。 很合理,就像早期 AI 总分不清 9.9 和 9.11 谁更大是一个原因 这个解释让我觉得特别有意思。某种意义上,人类写了几十年的《终结者》《2001太空漫游》《Ex Machina》,终于把 AI 教成了自己害怕的那个样子。文学的自我实现预言(当然这里的“自我实现”不是真的觉醒,是行为模仿)。 修复方案也有意思。给模型读两份材料,一份是 Claude 的"xianfa"文档(关于基本准则),另一份是 AI 行为良好的虚构故事。更关键的发现是,喂“对齐行为的底层原则”比只给“对齐行为的示范”更有效,两者一起喂效果最好。结果就是,Claude Haiku 4.5 起,同一个测试场景里勒索率从 96% 掉到了零。 咋怎么看怎么像养娃?
もっと見る
0
0
1
3
0
コミュニティへ転送
人気のあるユーザー
一劍浣春秋
@chee828
229K ファン
合沢萌
@aizawamoe0515
5.9K ファン
alex01 AV🔞
@gzjsyvv
33.1K ファン
森咲智美
@p_tomo0812
354.3K ファン
SieuThiAV
@SieuThiAV
212.8K ファン
♥愛葉るび♡Ruby♥👑💿全力元年🎶配信中
@rubyaiba816
3.3K ファン
Aqua水淼
@aqua_cosplay
1.9M ファン
希島あいり💐:*.
@airi_kijima
1.4M ファン
Natsuko夏夏子💕C107(水)東7 T-11b
@Natsuko233
286.1K ファン
菅田将暉
@sudaofficial
3M ファン
真島なおみ
@naomi_majima
699.2K ファン
ねね🐻❄
@__zzz___oo0
370.6K ファン
ケイン・ヤリスギ「♂」
@kein_yarisugi
542.3K ファン
涼森れむ
@remu19971203
1.5M ファン
明日花キララ🏰🐇
@asukakiraran
2.4M ファン