蛋黄堡.ai(@Hamburgerai )

2026.05.12 15:57

# AI 行业三个月变天，模型榜单已经解释不了全部 1小时46分钟里，这期《半球观察》播客的主持人把 DeepSeek V4、约 1000 条 Cursor 工作轨迹、OpenClaw 出圈、Manus 交易流产和 AI 中转站放在同一张桌上。单看每条都像行业新闻，连起来看就很刺眼：AI 公司正在被新的尺子衡量。模型榜单还重要，但已经解释不了全部。过去我们习惯问一个问题：谁的模型更强？现在还得问另一组问题：谁有真实任务数据，谁掌握用户入口，谁能把价格打下来，谁能穿过监管和资本的窄门。 > **编者注：** 这篇按播客原文提炼判断。DeepSeek 估值、Cursor/xAI 交易、Manus 价格等数字均先按“节目说法”处理，不能直接当作已确认事实。 ## DeepSeek 的强，变成了另一种强主播对 DeepSeek V4 的评价并不客气。V4 Pro 被认为 reasoning 过长，很多任务里像是在思维链中自己和自己打架。V4 Flash 的体感更好，接近 GPT5.4 mini 或 instant API 的水平，但这已经不是 R1 那种“全行业被迫重新估值”的时刻。这就产生了第一个反差：DeepSeek 仍然技术很硬，但它的产品冲击力没有天然压倒别人。节目里提到，Kimi、GLM、MiniMax 等国产模型在 coding 和迭代速度上都给了 DeepSeek 压力。DeepSeek 自己也因为适配国产硬件、减少 CUDA 技术债、拥抱 TileLang 等路线，承受了延期和成本变化。这听起来像掉队。但节目给了另一个定位。节目里说“DeepSeek 正好填补了这个空白”。这个“空白”指的是 OpenAI 不再开放权重、不再详细公开技术路线之后，全球开发者和研究者仍然需要一个前沿模型的公开参照物。DeepSeek 的价值就从“谁最强”变成“谁还愿意把技术路线摊开”。这是一种新的强。它可能不总是最会做产品的公司，也不一定每个版本都压住榜单。但它像开源社区的技术坐标系。大家看它的 report，看它的注意力机制，看它的后训练方法，再把这些东西吸收到自己的模型和产品里。所以，写 DeepSeek V4 不适合写成“王者归来”或“彻底掉队”。更准确的说法是：DeepSeek 正在从爆款模型公司，变成公开 research lab 的基础设施。 DeepSeek 没有消失，它只是从王者变成了坐标系。 ## 数据飞轮开始压过架构叙事这期最有信息量的技术段，落在 OPD 上。节目用一个很好的类比解释 On Policy Distillation：传统后训练像老师先写一大本习题集，学生之后自己看、自己背、自己消化。问题是题太多，领域太杂，学生容易学歪，甚至出现 reward hacking。 OPD 的感觉更像现场教学。 > “学生遇到不会了，老师就过来告诉他为什么不对。” 写代码时，代码老师在旁边；做数学时，数学老师在旁边。学生先尝试，老师实时纠错，模型训练从离线习题集变成在线反馈。这个机制把问题引向更深一层：老师从哪里来？答案是数据。更具体地说，是真实任务里的高质量轨迹。节目提到 Cursor 的 Composer 2 争议时，有一个关键细节：Cursor 被转述为在 Kimi base model 上加入约 1000 条真实用户工作轨迹做 SFT，使 coding 表现明显强于原始 base model。这个数字需要核查，但方向很重要。如果模型架构的边际差距变小，真实任务数据就会变成更贵的东西。 Claude Code 和 Codex 为什么会越做越强？节目里的解释是，它们有真实工程师每天使用的轨迹：怎么打开项目，怎么读代码，怎么改错，怎么跑测试，怎么回退，怎么完成一个长任务。这些数据很难从普通互联网文本里直接获得。它是任务过程。这也是 Cursor、Claude Code、Codex、OpenClaw、Manus 这一类产品被重新定价的原因。它们表面是工具，底层是数据采集口。谁的用户每天把真实任务交给它，谁就能反过来训练更懂任务的模型。模型能力当然还重要。但当大家都足够强时，数据会把差距重新拉开。模型教会产品说话，用户轨迹教会模型做事。 ## OpenClaw 出圈，说明入口开始变形节目把 OpenClaw 称为 Agent 的 ChatGPT 时刻。这句话很大，但它有具体场景支撑。主播把 OpenClaw 接进 Telegram 家庭群，当成一个会记忆、会查资料、会调用 skill 的“电子宠物”。更重要的是，在这个框架里，本地 27B 模型和 GPT5.5 的体感差距被缩小了。原因很简单：OpenClaw 有 memory，有 skill，有连续任务，有工具调用。这就改变了用户感知。单独问一个小模型，它可能不如大模型；把它放进一个 agent 框架里，它能记住昨天说过什么，能查资料，能跑工具，能把一个任务接着做下去。用户看到的是任务完成，而不是模型参数。这也是 OpenClaw 出圈的意义。它把 skills 从程序员小圈子带到普通人场景。节目里提到阿里的电商出海 agent。它可以帮助小商家处理 Shopify、商品上架、趋势分析、网站设计、运营链路。过去这些工作可能需要助理、外包、懂代码的人和运营经验。现在一个小老板可能第一次感到，agent 能把一整套流程接起来。这个变化比模型榜单更接近商业。因为用户不会每天比较 benchmark。他们会比较：这个东西能不能帮我把店开起来，能不能生成网页，能不能做 PPT，能不能整理调研表格，能不能少雇一个人。 Agent 的入口价值，不在会聊天，而在能接活。 ## Manus 的稀缺性，被同类产品反向证明 OpenClaw 出来以后，很多人会自然认为 Manus 不稀缺了。节目里的判断正好相反：OpenClaw 爆火，反而证明 Manus 更稀缺。这个判断的逻辑是产品体验。主播说，很多 computer use 或 open cloud 服务“根本不想用”，Perplexity 的 computer use 被点名为几乎不可用。相反，Manus 能做出详尽网页、PPT、真实调查表格，任务保持程度更好。换句话说，壳不稀缺，稳定交付稀缺。这和 ChatGPT 早期很像。聊天界面谁都能做，真正难的是持续给出有用答案。Agent 时代也是一样。浏览器自动化、工具调用、任务规划、记忆系统、失败恢复，单独看都不是秘密。难的是把它们组合成用户愿意反复使用的产品。 Manus 交易流产把这个问题又推到监管层面。节目讨论了 Meta 交易被撤销、VIE、IP、人才和公司归属问题。这里最值得保留的不是情绪判断，而是创业者面临的新现实：AI agent 这种产品绑定了用户数据、任务轨迹、人才供给、模型合作和国家监管。对中国 AI 创业者来说，路径选择可能会提前。你从第一天就要想清楚，是进入国内生态，还是走海外资本路径；是把团队、IP、数据和客户都放在一个监管框架里，还是冒着未来交易被叫停的风险做跨境结构。这已经超出普通商业选择。这是 AI 产品变成战略资产后的副作用。 Manus 的问题不是卖没卖成，而是它到底属于哪里。 ## AI 开始说钱，也开始被低价倒卖节目后半段最现实。大厂模型开始收费，推理框架项目开始公司化，IPO 和融资叙事吸走市场流动性，AI 中转站开始变成生意。主播说得很直接：节目里那句“大家都开始说钱了，不再说 AGI 的梦想了”，把这层现实说得很直。这句话有点刺耳，但它解释了很多现象。当模型差距大时，用户会追逐最强模型。当多数日常任务都已经够用时，用户会开始追逐便宜、稳定、可接入、不封号、不断线。AI 中转站就在这个缝隙里长出来。节目提到 Sub-to-API 这类工具，把 Claude 或 Codex 的订阅转换成 API，再用更低价格分发。也提到部分中转站可能收集用户数据，甚至标称 Claude，实际替换成更便宜的国产模型。 > **编者注：** AI 中转站涉及服务条款、数据安全和潜在欺诈风险。这里仅按节目内容记录产业信号，不构成使用建议。这说明模型正在商品化。最前沿模型、企业级合规服务、真实工作流数据仍然贵。但对普通聊天、搜索、轻量写作、心理陪伴、日常问答来说，很多用户已经不愿意为“最强”付出太高溢价。这会倒逼模型公司回到互联网逻辑：获客、留存、价格、渠道、生态、数据闭环。 AGI 叙事还在，商业账本已经来了。 ## 最后这期《半球观察》最适合被整理成一组暴论，因为它更像一张行业雷达图。DeepSeek 代表公开技术路线，Cursor 代表 coding 数据，OpenClaw 代表 agent 入口，Manus 代表可交付产品和监管敏感性，AI 中转站代表模型商品化。把这些点连起来，结论很清楚：AI 行业正在从“模型公司竞赛”变成“模型、产品、数据、资本、监管共同定价”的复杂游戏。接下来不能只看模型榜单。要看四个信号。第一，DeepSeek 后续版本能不能重新打出产品体验上的压倒性差距。如果不能，它仍然有开源坐标系价值，但商业位置会不同。第二，Claude Code、Codex、Cursor、OpenClaw、Manus 谁能沉淀最高质量的任务轨迹。真实用户每天交出的工作过程，会比静态语料更贵。第三，agent 产品能不能稳定交付。会调用工具不稀奇，能把网页、PPT、调研、代码修改交付到用户满意，才是分水岭。第四，价格和监管会不会重塑模型分发。中转站、订阅转 API、模型替换套利、跨境交易叫停，都说明 AI 已经离纯技术讨论很远。我对这期的最终判断是：模型能力仍然重要，但它已经不是唯一的解释变量。谁拥有入口，谁拥有数据，谁能把价格做到用户愿意持续用，谁能在监管和资本结构里活下来，谁才可能赢到下一阶段。这也是它最值得写成文章的地方。暴论背后真正冲击人的，是我们判断 AI 公司的尺子正在换。 --- 原始播客：