TwiScan
人気
コミュニティ
ログイン
登録
English
日本語
한국의
简体中文
繁体中文
登録して招待リンクを共有すると、動画再生報酬と紹介報酬を獲得できます。
今すぐ登録
陈少举 (🦣 @
[email protected]
)
@chenshaoju
构成:30%生活,20%ACG,20%技术,15%查证,10%股市,5%政治。 PGP: BitMessage:BM-GuKfKkQoZEX7Cmmg5ifTwnyhdihc9DnR, 原神进行中。
1.2K
フォロー中
61.1K
ファン
陈少举 (🦣 @
[email protected]
) 再投稿
骆逸
@royxy
2026.05.13 04:47
不要碰网贷不要碰网贷不要碰网贷不要碰网贷不要碰网贷不要碰网贷 #
重要的事说六遍
#
0
0
6
24
4
コミュニティへ転送
陈少举 (🦣 @
[email protected]
)
@chenshaoju
2026.05.10 08:41
非常有意思的案例 👀
思维怪怪
@0xLogicrw
2026.05.10 04:19
MiniMax 发布技术博客,披露其 M2 系列大模型无法输出人名「马嘉祺」的根因排查过程。排查从一个个例出发,最终揭示了一个波及整个词表近 5% 的系统性退化问题。 根本原因是大模型两个训练阶段的数据覆盖严重脱节。第一阶段(预训练)用海量互联网文本编出了一本约 20 万词的「字典」;第二阶段(后训练)用精选的对话数据教模型说话,但这份对话数据只覆盖了字典里的一部分。字典里有、但对话数据里没练到的词,就会在第二阶段逐渐被遗忘。 「嘉祺」就是这样的一个词。分词器(tokenizer,负责把文字切成模型能处理的最小单元)因为在互联网文本中见到「嘉祺」连用的次数够多,就把它合并成了一个独立单元。预训练时模型学会了这个词,但后训练的对话数据里包含「嘉祺」的样本不到 5 条。后训练不断调整模型参数,练到的词越来越准,没练到的词则在参数更新中被带偏。最终,模型仍然「认识」马嘉祺、能准确回答相关信息,丢失的只是把这个名字写出来的能力。 退化排名靠前的还有「传奇私服」「无痛人流」等互联网 SEO 垃圾词。这类词在预训练的互联网语料中铺天盖地,分词器给了它们独立编号,但精选的后训练对话数据不会收录这些内容,结果同样被遗忘。 团队对完整词表做了全量扫描,发现约 4.9% 的词发生了显著退化。退化最严重的是日语:29.7% 的日语词显著退化,远超韩语 3.3%、俄语 3.7%、中文 3.9% 和英文 3.5%。 日语的严重退化还解开了一个旧谜。此前模型在日语对话中偶尔混入俄语或韩语字符,一直找不到原因。这次分析表明,大量日语词退化后,在模型内部的参数空间里「漂」到了其他语言的地盘上,导致模型该写日语时错写成俄语或韩语。 修复方案是构造一份覆盖全词表的合成数据,让模型用简单的复读任务把字典里每个词都练一遍。效果立竿见影:日语回答中混入俄文字符的比例从 47% 降至 1%,全词表参数稳定度从最低 0.329 升至全部高于 0.97。
もっと見る
0
0
1
9
3
コミュニティへ転送
読み込み中...
人気のあるユーザー
一劍浣春秋
@chee828
229K ファン
合沢萌
@aizawamoe0515
5.9K ファン
alex01 AV🔞
@gzjsyvv
33.1K ファン
SieuThiAV
@SieuThiAV
212.8K ファン
森咲智美
@p_tomo0812
354.3K ファン
♥愛葉るび♡Ruby♥👑💿全力元年🎶配信中
@rubyaiba816
3.3K ファン
Aqua水淼
@aqua_cosplay
1.9M ファン
希島あいり💐:*.
@airi_kijima
1.4M ファン
Natsuko夏夏子💕C107(水)東7 T-11b
@Natsuko233
286.2K ファン
真島なおみ
@naomi_majima
699.2K ファン
菅田将暉
@sudaofficial
3M ファン
ケイン・ヤリスギ「♂」
@kein_yarisugi
542.3K ファン
ねね🐻❄
@__zzz___oo0
370.6K ファン
涼森れむ
@remu19971203
1.5M ファン
明日花キララ🏰🐇
@asukakiraran
2.4M ファン