注册并分享邀请链接,可获得视频播放与邀请奖励。

0xTodd ( thinking )
@0xTodd
热衷研究 | 在 @researchnothing 琢磨策略 | 在 @ebunker_eth 打包区块 | Long BTC, Love the World | NFA
加入 September 2016
3K 正在关注    71.6K 粉丝
牛逼啊,Google 发明了一种新的压缩技术,可以让大模型实现 8 倍性能提升。 KV 缓存是模型推理时的重要瓶颈,新压缩算法能把 KV 缓存压缩到 3 比特,且几乎不损失精度。 它有什么用呢? 1. 有了这个 TurboQuant 技术,在不提高内存的前提下,大模型就能塞下好几倍的上下文,或者同时完成好几倍的并发。(求求了,把闲鱼内存条的价格打下来吧😂)。 2. 而且这个技术有点类似于“插拔式”,现有的模型不需要训练或者微调,就类似于压缩工具似的,调试一下就可以用了。那些开源的大模型估计很快就能用上这个技术了。 3. 不过它不能压缩权重,只压缩 KV 缓存。所以并不能让你的电脑跑更牛逼的本地大模型,但是能让他们跑的更快。
显示更多
Introducing TurboQuant: Our new compression algorithm that reduces LLM key-value cache memory by at least 6x and delivers up to 8x speedup, all with zero accuracy loss, redefining AI efficiency. Read the blog to learn how it achieves these results:
显示更多