# AI 行业三个月变天,模型榜单已经解释不了全部
1小时46分钟里,这期《半球观察》播客的主持人 把 DeepSeek V4、约 1000 条 Cursor 工作轨迹、OpenClaw 出圈、Manus 交易流产和 AI 中转站放在同一张桌上。单看每条都像行业新闻,连起来看就很刺眼:AI 公司正在被新的尺子衡量。模型榜单还重要,但已经解释不了全部。
过去我们习惯问一个问题:谁的模型更强?
现在还得问另一组问题:谁有真实任务数据,谁掌握用户入口,谁能把价格打下来,谁能穿过监管和资本的窄门。
> **编者注:** 这篇按播客原文提炼判断。DeepSeek 估值、Cursor/xAI 交易、Manus 价格等数字均先按“节目说法”处理,不能直接当作已确认事实。
## DeepSeek 的强,变成了另一种强
主播对 DeepSeek V4 的评价并不客气。V4 Pro 被认为 reasoning 过长,很多任务里像是在思维链中自己和自己打架。V4 Flash 的体感更好,接近 GPT5.4 mini 或 instant API 的水平,但这已经不是 R1 那种“全行业被迫重新估值”的时刻。
这就产生了第一个反差:DeepSeek 仍然技术很硬,但它的产品冲击力没有天然压倒别人。
节目里提到,Kimi、GLM、MiniMax 等国产模型在 coding 和迭代速度上都给了 DeepSeek 压力。DeepSeek 自己也因为适配国产硬件、减少 CUDA 技术债、拥抱 TileLang 等路线,承受了延期和成本变化。
这听起来像掉队。
但节目给了另一个定位。
节目里说“DeepSeek 正好填补了这个空白”。
这个“空白”指的是 OpenAI 不再开放权重、不再详细公开技术路线之后,全球开发者和研究者仍然需要一个前沿模型的公开参照物。DeepSeek 的价值就从“谁最强”变成“谁还愿意把技术路线摊开”。
这是一种新的强。
它可能不总是最会做产品的公司,也不一定每个版本都压住榜单。但它像开源社区的技术坐标系。大家看它的 report,看它的注意力机制,看它的后训练方法,再把这些东西吸收到自己的模型和产品里。
所以,写 DeepSeek V4 不适合写成“王者归来”或“彻底掉队”。更准确的说法是:DeepSeek 正在从爆款模型公司,变成公开 research lab 的基础设施。
DeepSeek 没有消失,它只是从王者变成了坐标系。
## 数据飞轮开始压过架构叙事
这期最有信息量的技术段,落在 OPD 上。
节目用一个很好的类比解释 On Policy Distillation:传统后训练像老师先写一大本习题集,学生之后自己看、自己背、自己消化。问题是题太多,领域太杂,学生容易学歪,甚至出现 reward hacking。
OPD 的感觉更像现场教学。
> “学生遇到不会了,老师就过来告诉他为什么不对。”
写代码时,代码老师在旁边;做数学时,数学老师在旁边。学生先尝试,老师实时纠错,模型训练从离线习题集变成在线反馈。
这个机制把问题引向更深一层:老师从哪里来?
答案是数据。更具体地说,是真实任务里的高质量轨迹。
节目提到 Cursor 的 Composer 2 争议时,有一个关键细节:Cursor 被转述为在 Kimi base model 上加入约 1000 条真实用户工作轨迹做 SFT,使 coding 表现明显强于原始 base model。这个数字需要核查,但方向很重要。
如果模型架构的边际差距变小,真实任务数据就会变成更贵的东西。
Claude Code 和 Codex 为什么会越做越强?节目里的解释是,它们有真实工程师每天使用的轨迹:怎么打开项目,怎么读代码,怎么改错,怎么跑测试,怎么回退,怎么完成一个长任务。
这些数据很难从普通互联网文本里直接获得。它是任务过程。
这也是 Cursor、Claude Code、Codex、OpenClaw、Manus 这一类产品被重新定价的原因。它们表面是工具,底层是数据采集口。谁的用户每天把真实任务交给它,谁就能反过来训练更懂任务的模型。
模型能力当然还重要。但当大家都足够强时,数据会把差距重新拉开。
模型教会产品说话,用户轨迹教会模型做事。
## OpenClaw 出圈,说明入口开始变形
节目把 OpenClaw 称为 Agent 的 ChatGPT 时刻。
这句话很大,但它有具体场景支撑。主播把 OpenClaw 接进 Telegram 家庭群,当成一个会记忆、会查资料、会调用 skill 的“电子宠物”。更重要的是,在这个框架里,本地 27B 模型和 GPT5.5 的体感差距被缩小了。
原因很简单:OpenClaw 有 memory,有 skill,有连续任务,有工具调用。
这就改变了用户感知。单独问一个小模型,它可能不如大模型;把它放进一个 agent 框架里,它能记住昨天说过什么,能查资料,能跑工具,能把一个任务接着做下去。用户看到的是任务完成,而不是模型参数。
这也是 OpenClaw 出圈的意义。它把 skills 从程序员小圈子带到普通人场景。
节目里提到阿里的电商出海 agent。它可以帮助小商家处理 Shopify、商品上架、趋势分析、网站设计、运营链路。过去这些工作可能需要助理、外包、懂代码的人和运营经验。现在一个小老板可能第一次感到,agent 能把一整套流程接起来。
这个变化比模型榜单更接近商业。
因为用户不会每天比较 benchmark。他们会比较:这个东西能不能帮我把店开起来,能不能生成网页,能不能做 PPT,能不能整理调研表格,能不能少雇一个人。
Agent 的入口价值,不在会聊天,而在能接活。
## Manus 的稀缺性,被同类产品反向证明
OpenClaw 出来以后,很多人会自然认为 Manus 不稀缺了。节目里的判断正好相反:OpenClaw 爆火,反而证明 Manus 更稀缺。
这个判断的逻辑是产品体验。
主播说,很多 computer use 或 open cloud 服务“根本不想用”,Perplexity 的 computer use 被点名为几乎不可用。相反,Manus 能做出详尽网页、PPT、真实调查表格,任务保持程度更好。
换句话说,壳不稀缺,稳定交付稀缺。
这和 ChatGPT 早期很像。聊天界面谁都能做,真正难的是持续给出有用答案。Agent 时代也是一样。浏览器自动化、工具调用、任务规划、记忆系统、失败恢复,单独看都不是秘密。难的是把它们组合成用户愿意反复使用的产品。
Manus 交易流产把这个问题又推到监管层面。
节目讨论了 Meta 交易被撤销、VIE、IP、人才和公司归属问题。这里最值得保留的不是情绪判断,而是创业者面临的新现实:AI agent 这种产品绑定了用户数据、任务轨迹、人才供给、模型合作和国家监管。
对中国 AI 创业者来说,路径选择可能会提前。你从第一天就要想清楚,是进入国内生态,还是走海外资本路径;是把团队、IP、数据和客户都放在一个监管框架里,还是冒着未来交易被叫停的风险做跨境结构。
这已经超出普通商业选择。
这是 AI 产品变成战略资产后的副作用。
Manus 的问题不是卖没卖成,而是它到底属于哪里。
## AI 开始说钱,也开始被低价倒卖
节目后半段最现实。
大厂模型开始收费,推理框架项目开始公司化,IPO 和融资叙事吸走市场流动性,AI 中转站开始变成生意。主播说得很直接:
节目里那句“大家都开始说钱了,不再说 AGI 的梦想了”,把这层现实说得很直。
这句话有点刺耳,但它解释了很多现象。
当模型差距大时,用户会追逐最强模型。当多数日常任务都已经够用时,用户会开始追逐便宜、稳定、可接入、不封号、不断线。AI 中转站就在这个缝隙里长出来。
节目提到 Sub-to-API 这类工具,把 Claude 或 Codex 的订阅转换成 API,再用更低价格分发。也提到部分中转站可能收集用户数据,甚至标称 Claude,实际替换成更便宜的国产模型。
> **编者注:** AI 中转站涉及服务条款、数据安全和潜在欺诈风险。这里仅按节目内容记录产业信号,不构成使用建议。
这说明模型正在商品化。
最前沿模型、企业级合规服务、真实工作流数据仍然贵。但对普通聊天、搜索、轻量写作、心理陪伴、日常问答来说,很多用户已经不愿意为“最强”付出太高溢价。
这会倒逼模型公司回到互联网逻辑:获客、留存、价格、渠道、生态、数据闭环。
AGI 叙事还在,商业账本已经来了。
## 最后
这期《半球观察》最适合被整理成一组暴论,因为它更像一张行业雷达图。DeepSeek 代表公开技术路线,Cursor 代表 coding 数据,OpenClaw 代表 agent 入口,Manus 代表可交付产品和监管敏感性,AI 中转站代表模型商品化。
把这些点连起来,结论很清楚:AI 行业正在从“模型公司竞赛”变成“模型、产品、数据、资本、监管共同定价”的复杂游戏。
接下来不能只看模型榜单。
要看四个信号。
第一,DeepSeek 后续版本能不能重新打出产品体验上的压倒性差距。如果不能,它仍然有开源坐标系价值,但商业位置会不同。
第二,Claude Code、Codex、Cursor、OpenClaw、Manus 谁能沉淀最高质量的任务轨迹。真实用户每天交出的工作过程,会比静态语料更贵。
第三,agent 产品能不能稳定交付。会调用工具不稀奇,能把网页、PPT、调研、代码修改交付到用户满意,才是分水岭。
第四,价格和监管会不会重塑模型分发。中转站、订阅转 API、模型替换套利、跨境交易叫停,都说明 AI 已经离纯技术讨论很远。
我对这期的最终判断是:模型能力仍然重要,但它已经不是唯一的解释变量。谁拥有入口,谁拥有数据,谁能把价格做到用户愿意持续用,谁能在监管和资本结构里活下来,谁才可能赢到下一阶段。
这也是它最值得写成文章的地方。暴论背后真正冲击人的,是我们判断 AI 公司的尺子正在换。
---
原始播客:
顯示更多