注册并分享邀请链接,可获得视频播放与邀请奖励。

阑夕
@foxshuo
说什么是你的自由,做什么是我的权利,如果我做的得不到你的赞同,那就对了,否则我将与你一样平淡无奇。
加入 August 2009
774 正在关注    172.9K 粉丝
Kimi在GitHub上开源了k1.5的论文,分享了实现原理,最重要的一条是long2short,什么意思呢,就是让长思维链模型去当老师,教会短思维链模型同样的思考方式。 类o1的思维链模型什么都好,就是成本太高了,对于大多数普通人来说,「用得上但用不起」是最大的障碍,所以只有能够把AI用作生产力的专业人员,才能「回本」,甚至连OpenAI都没法通过高定价达成盈亏平衡,Sam Altman说200美金/月的ChatGPT Pro——可以毫无心理负担的使用o1——在账面上是亏损的,因为o1被调用的频次太高了⋯⋯ 如果说DeepSeek V3是在训练层戳破了必须要囤上几万张卡才能上牌桌的神话,那么Kimi 1.5就是在推理层推翻了思维链含着金汤匙出生就是要烧钱换质量的判断。 long2short也有点模型蒸馏的意思,本质上是利用极致的压缩能力实现「降本等效」的需要,k1.5分为long-CoT(长思维链)和short-CoT(短思维链)两个版本,但是很明显的,相比long-CoT对于长板的挑战,short-CoT对于短板的补足价值更有吸引力。 简单来说,就是和包括DeepSeek V3在内的竞争对手比起来,达到同样的水平,Kimi k1.5消耗的token量最少,如果把可消耗的token量提高到同一数值,Kimi k1.5的表现又回一骑绝尘,同质量最便宜,同价格最优质,就是这么不讲道理。 Kimi的论文里强调了长上下文的压缩是这套long2short方法的关键所在,这就有点让人感慨了,不知道你们还记不记得,Kimi当初的出圈,就是因为对长上下文的支持,刚发布时的20万字处理上限,刷新了行业纪录,后来长上下文也一直是Kimi的特色标签,但谁又能想到,对于长上下文的压缩优势,还能穿越山海,让Kimi在思维链的长短压缩场景里也能复用。 更早些时候,晚点对MiniMax创始人闫俊杰的采访里,闫也说了,公司采用全新架构的原因,就是意识到长上下文很重要,它是大模型发生通讯的核心能力。 只能说,过去的一切积累都会成为未来的慷慨馈赠。 和中美人民在小红书里重新相遇很像,两个国家在AI技术上的交流和互动其实也很密集,虽然政治上有芯片禁售等情况,但在从业者的圈子里,看不到太多的意识形态,腾讯的财报会议直接都说了,几乎全公司的程序员都在用Copilot写代码,而DeepSeek和Kimi把模型成本打下去的动作,也证明了在经济易用这条路上,国产公司是走得最远的。 这就勾画出了一个非常明确的趋势,美国的AI厂商负责前沿探索,烧最多的钱,出最好的货——你可以发现目前o3还是同行们不敢碰瓷的,都会默默绕开,哈哈——中国的AI厂商负责务实,在更贴近现实需求的领域里,提供最全面的优化,让AI变得好用。 这真的是未曾想过的配合。 朋友圈里有人转过一张群聊截图,我觉得很符合AI发展的方向,内容是宝玉老师发了一个react动画库的网址,下面的消息回复是:「谢谢推荐,我让Cursor学习下。」 哥飞对此感叹道:注意到区别了吗?如果是在以前,这个回复应该是「谢谢推荐,我学习下」。 时代就是这么悄然改变的。(2/2)
显示更多
0
7
102
22
转发到社区