注册并分享邀请链接,可获得视频播放与邀请奖励。

搜索结果 韩语
韩语 贴吧
一个关键词就是一个贴吧,路径全站唯一。
创建贴吧
用户
未找到
包含 韩语 的推特
我为文物当翻译:三语推介临沂明星文物 Trilingual showcase of Linyi's iconic cultural relics#国际博物馆日##遇见临沂·文化##韩语##法语##波斯语##临沂市博物馆##明星文物#
显示更多
这玩意真进phase2了。。投了1000u多一点,现在值15000u。。。万一呢。。 昨晚做了韩语的space的地推。。。phase1瞬间就满了
刚妹妹分开, 她抑郁症躯体化了,现在暂停念书,在家休息。 我带她吃了好吃的,然后去了香奈儿, 让她选个她想要的礼物送给她, 她快过生日了。 她小心翼翼的看了一圈, 最后在小红书找了自己喜欢的款找柜姐拿, 走出专柜她很开心,压不住的兴奋, 说原来逛专柜是这种感觉! 走出来闲逛的时候给她做规划: 如果不念书了, 就去学英语,或者学日语韩语, 学历无法超过别人, 至少还能有语言优势。 或者想学别的也行,看书也行, 都行! 帮她下载了Kimi, 让她用Kimi学习后找我汇报, 她说“姐姐怎么那么厉害啊, 我想以你为目标!” 其实姐姐15岁的时候也一团糟, 那时候不清楚如果没有足够的内核是会被社会毒打的, 不停的在认清自己, 向内修。 15岁也好,30岁也好, 任何时候开始都真的都不算晚。 妹妹加油🌱
显示更多
0
50
86
0
转发到社区
MiniMax 发布技术博客,披露其 M2 系列大模型无法输出人名「马嘉祺」的根因排查过程。排查从一个个例出发,最终揭示了一个波及整个词表近 5% 的系统性退化问题。 根本原因是大模型两个训练阶段的数据覆盖严重脱节。第一阶段(预训练)用海量互联网文本编出了一本约 20 万词的「字典」;第二阶段(后训练)用精选的对话数据教模型说话,但这份对话数据只覆盖了字典里的一部分。字典里有、但对话数据里没练到的词,就会在第二阶段逐渐被遗忘。 「嘉祺」就是这样的一个词。分词器(tokenizer,负责把文字切成模型能处理的最小单元)因为在互联网文本中见到「嘉祺」连用的次数够多,就把它合并成了一个独立单元。预训练时模型学会了这个词,但后训练的对话数据里包含「嘉祺」的样本不到 5 条。后训练不断调整模型参数,练到的词越来越准,没练到的词则在参数更新中被带偏。最终,模型仍然「认识」马嘉祺、能准确回答相关信息,丢失的只是把这个名字写出来的能力。 退化排名靠前的还有「传奇私服」「无痛人流」等互联网 SEO 垃圾词。这类词在预训练的互联网语料中铺天盖地,分词器给了它们独立编号,但精选的后训练对话数据不会收录这些内容,结果同样被遗忘。 团队对完整词表做了全量扫描,发现约 4.9% 的词发生了显著退化。退化最严重的是日语:29.7% 的日语词显著退化,远超韩语 3.3%、俄语 3.7%、中文 3.9% 和英文 3.5%。 日语的严重退化还解开了一个旧谜。此前模型在日语对话中偶尔混入俄语或韩语字符,一直找不到原因。这次分析表明,大量日语词退化后,在模型内部的参数空间里「漂」到了其他语言的地盘上,导致模型该写日语时错写成俄语或韩语。 修复方案是构造一份覆盖全词表的合成数据,让模型用简单的复读任务把字典里每个词都练一遍。效果立竿见影:日语回答中混入俄文字符的比例从 47% 降至 1%,全词表参数稳定度从最低 0.329 升至全部高于 0.97。
显示更多
0
16
847
124
转发到社区