DeepSeek V4 没有缩小差距——它正在悄悄落后
主流叙事是"中国 AI 已经追上美国"。但美国 NIST 旗下 CAISI 5 月独立评估,把这个故事打得粉碎。
问题 1:与前沿模型差距从 3 个月扩大到 8 个月。 DeepSeek 自己的报告说 V4-Pro 与 GPT-5.4、Claude Opus 4.6 相当(差 2 个月)。但 CAISI 用非公开基准测试得出结论——V4 实际只相当于 8 个月前的 GPT-5。差距没缩小,是拉大了。
问题 2:参数堆到 1.6 万亿,仍然追不上闭源。 DeepSeek 把参数从 V3.2 的 6710 亿堆到 V4-Pro 的 1.6 万亿(4900 亿激活),成为全球最大开源模型——还是只在编码竞赛上"与 GPT-5.4 相当",世界知识、推理、多模态全面落后。
问题 3:训练框架在英伟达和华为之间反复横跳。 DeepSeek 2025 年中曾把训练迁移到华为昇腾,结果出现"严重训练失败",R2 被迫退回 NVIDIA GPU。现在的解法是——训练用 NVIDIA,推理用华为。这恰恰证明国产 AI 芯片还撑不起前沿模型训练。
DeepSeek 内部的真实困境? V4 推迟 6 个月才上线,定价砍到 GPT-5.4 的 1/9(每百万 tokens 3.48 美元 vs 30 美元),但这不是技术优势——是利润换市占率。Anthropic 单用户月营收 211 美元,DeepSeek 拿什么对手?
中国 AI 不是没进步,是别人跑得更快。CAISI 的 8 个月差距不是技术差距,是体系差距——GPU 禁令、人才流失、训练框架本土化全部失败叠加的结果。
顯示更多
DeepSeek 最新融资,最有意思的不是估值涨到了 515 亿美元
是梁文锋拒绝了谁,又选择了谁🧐🧐
阿里谈崩了,条件是「生态整合」。腾讯开价想拿 20% 股份,同样被拒。
中国互联网最厚的两张钱包,在梁文锋这里都吃了闭门羹。
原本传闻领投的国家大基金,现在退居第二。领投位置留给了梁文锋自己:
个人认购约 40%,开出整轮最大一张支票,把控制权牢牢锁住🔒
DeepSeek 自 2023 年成立以来从未接受外部融资(想起了 Hyperliquid 哈哈),把 VC 和互联网大厂一起挡在门外,不是因为不缺钱,是因为他们要的太多。
或许中国 AI 独立性真正的对立面,是商业巨头的生态并吞。
顯示更多
中美头部 AI 大模型公司估值对比:
1 OpenAI ≈ 40 DeepSeeK
这个估值大家认为合理吗?
是 OpenAI 太贵还是 DeepSeek 太便宜?🤔🤔
DeepSeek V4 Flash 5毛钱就可以免费下载高清电影,吊打GPT-5.5
每天晚上睡觉前都让AI自动帮我下载音乐
想要这个牛逼的skill,评论区打1,免费送
DeepSeek 这个缓存机制非常合理且简单(无需额外配置,默认命中 ),对比 Anthropic 好复杂啊,还需要手动控制。
然后 DeepSeek 的缓存命中率非常给力。Pro 1500w tokens 只要九毛六。
顯示更多
DeepSeek首轮融资估值数周翻倍至450亿美元,大基金领投。
可能包含的投资方:中投公司,国家主权基金,中国社保基金,腾讯,阿里。
梁文峰,其实不需要投资的IPO 的,但是为了稳住核心人才,这一步必须走了。
顯示更多
DeepSeek最核心的优势,
是在达到当前水准的前提下还坚持开源,
那些降低推理成本的技术其实都是次要的,
这类技术在工业界和学术界早就有大量同类方案了。
顯示更多
DeepSeek 多模态大语言模型的论文《Thinking with Visual Primitives》已经公开
底座是 DeepSeek-V4-Flash,MoE架构,总参数量 284B,激活参数量 13B。
自研 DeepSeek‑ViT 视觉编码模型,14×14 patch,输出后 3×3 空间压缩,再接入 LLM。
模型在回答时不仅进行文字推理,还会同时通过画框、打点等“视觉原语”进行思考。
在极低的 Token 成本下,其效果能和 GPT-5.4、Claude 以及 Gemini 在一些前沿指标上对齐,甚至有的指标能反超。
顯示更多
Deepseek 的多模态模型全量了。
目前可以在网页版的识图模式尝试,看起来是一个单独的多模态模型