Macro_Lin ｜市场观察员(@LinQingV):OpenAI 跟 Cerebras 那笔 750MW 的合同今年 1 月签的，1 月份报道的合同价值超过 100 亿美元，后来 S-1 招股书披露的 Master Relationship Agreement 总价值超过 200 亿美元（包含到 2030 年的扩展选项）。第一个产品 2 月 12 日就上线了，叫 GPT-5.3-Codex-Spark。这个产品本身就是 Cerebras 推理引擎实战表现的一份成绩单，可以从几个方面做具体判断。吞吐方面，Codex-Spark 在 WSE-3 上跑出 1000 tokens/秒以上，标准 GPT-5.3-Codex 跑在 GPU 集群上约 65 tokens/秒，速度差距 15 倍。Cerebras 自己在 gpt-oss-120B 这个开源模型上能跑到 3000 tokens/秒，是当前所有商用推理服务里最高的吞吐。第三方 benchmark 横向对比，同样 gpt-oss-120B 模型在 Cerebras 跟在普通 GPU 推理后端的吞吐差大约 10 倍。这个 10 到 15 倍的实测差距，跟物理层面 Cerebras SRAM 21 PB/s 对比 H100 HBM3 3.35 TB/s 那约 6300 倍带宽鸿沟之间，还有几百倍的 gap，被软件栈、工作负载、batch 处理这些系统级因素吃掉了。延迟方面，1000 tokens/秒对应每个 token 1 毫秒生成间隔，这个速度的硬件能力反过来暴露了 OpenAI 自己推理 stack 的瓶颈。OpenAI 在 Codex-Spark 上同时引入了持久 WebSocket 连接和 Responses API 重写，每次客户端服务端往返开销减少 80%，per-token 开销减少 30%，time-to-first-token 减少 50%。原来 OpenAI 的整套推理服务架构是按 GPU 推理"几十毫秒一个 token"那个延迟尺度设计的，跟 Cerebras 1 毫秒每 token 的硬件能力对不上，软件栈的开销反而成了瓶颈。Cerebras 的速度让 OpenAI 必须重做整个 web 层，硬件能力升级倒逼软件栈重构。成本方面，Cerebras 的硬件成本优势目前还没有被公开定价验证。Codex-Spark 只对 ChatGPT Pro 200 美元/月订阅用户开放，API 定价至今未敲定。OpenAI 选择高 ARPU 订阅档而不是开放 API 定价，意味着单位推理成本仍然显著高于普通 GPU 推理服务，需要靠 Pro 订阅的高客单价摊薄 Cerebras 的硬件固定成本。如果 Cerebras 真的便宜过 GPU，OpenAI 应该敢把 Cerebras 后端的 API 价格直接公开。延迟披露 API 价格这件事，可以理解为 cost-per-token 还没真正击穿 GPU 推理的成本曲线。作为参考，Cerebras 自己的推理云上 gpt-oss-120B 定价是 $0.69/M 输出 tokens，GPT-4o 的 API 售价是 $10/M 输出 tokens，但两者模型规模和能力差距很大，不能直接对比。但 Cerebras 的这套东西有几个关键的约束条件，框定了它现在能做什么、做不了什么。第一是模型大小限制。Codex-Spark 是蒸馏后的小模型，被显著压缩才能跑进 WSE-3 的 SRAM。WSE-3 的片上 SRAM 只有 44GB，frontier model 的参数量远超这个容量，必须做剪枝或蒸馏才能装得下。换速度的代价是损失约 19 个百分点的模型能力，Terminal-Bench 2.0 上 Spark 约 58% vs 标准 Codex 77.3%。这是 weight streaming 在工程上仍然不够好的旁证，OpenAI 选择用蒸馏小模型而不用 weight streaming 跑大模型，说明前者目前在工程上更可行。第二是容量限制。Codex-Spark 目前是 research preview，OpenAI 明确说明"由于运行在专用低延迟硬件上，使用受独立速率限制约束"。这个表述基本等同于承认 Cerebras 容量稀缺。750MW 全部部署完需要数千台 CS-3，对应 Cerebras 的整机产线是巨大的扩产挑战。这也是招股书里 RPO 约 246 亿美元有 85% 要到 2028 年之后才能确认收入的根本原因，硬件交付的物理速度限制了营收节奏。总结来说，OpenAI 这笔交易对 Cerebras 是阶段性胜利，但远没到终局。技术验证层面，Codex-Spark 证明 WSE-3 在中小模型推理上确实能做到 GPU 做不到的速度，这一点产业内已经形成共识。但商业兑现层面，Cerebras 还要解两个核心问题。一是大模型推理的 SRAM 容量限制，OpenAI 用蒸馏小模型而不用 weight streaming 跑大模型，说明 weight streaming 当前还撑不起完整的 frontier model。二是规模化部署的速度，每台 CS-3 都要一片完整的 5nm 晶圆和一套非标准化的整机集成流程，年产几千台 CS-3 是相当具体的工程瓶颈。对国产推理芯片的同行来说，这件事还有几个很具体的工程信号。端到端延迟优化的价值正在被产业重估。OpenAI 重写整个 Responses API 说明硬件再快，软件栈跟不上的话推理体验仍然受限，专用推理芯片的价值要靠端到端的延迟优化才能完全释放。蒸馏在产业部署里的实际重要性远超学术讨论的程度。OpenAI 这种规模都要为了跑 Cerebras 专门蒸馏模型，说明专用推理硬件 + 专用蒸馏模型这个组合是接下来一段时间的主流形态，单纯的"通用推理芯片"在竞争中会比较吃亏。 1000 tokens/秒正在成为 Agentic AI 工作流的新基准。慢于这个速度的推理硬件在交互式 agent 场景下会被边缘化，这个速度天花板对国产推理芯片是一个相当严峻的目标。 Cerebras 当前展示的能力是真实的，但商业化释放节奏被产能和工程瓶颈卡住了。研究 Cerebras 的真正关键，一是看它在 2027-2028 年能不能把 750MW 真的部署完，把 RPO 真的转成营收；二是看它能不能在 OpenAI 之外签下新的推理大客户。AWS 的 CS-3 上架是一个信号，但目前还没有第二个 OpenAI 量级的合同出现。从 G42 依赖到 OpenAI 依赖，客户质量在提升，但集中度的风险结构没有改变，只有客户组合真正分散了，估值里的风险溢价才能消化。

2026.05.10 07:40

OpenAI 跟 Cerebras 那笔 750MW 的合同今年 1 月签的，1 月份报道的合同价值超过 100 亿美元，后来 S-1 招股书披露的 Master Relationship Agreement 总价值超过 200 亿美元（包含到 2030 年的扩展选项）。第一个产品 2 月 12 日就上线了，叫 GPT-5.3-Codex-Spark。这个产品本身就是 Cerebras 推理引擎实战表现的一份成绩单，可以从几个方面做具体判断。吞吐方面，Codex-Spark 在 WSE-3 上跑出 1000 tokens/秒以上，标准 GPT-5.3-Codex 跑在 GPU 集群上约 65 tokens/秒，速度差距 15 倍。Cerebras 自己在 gpt-oss-120B 这个开源模型上能跑到 3000 tokens/秒，是当前所有商用推理服务里最高的吞吐。第三方 benchmark 横向对比，同样 gpt-oss-120B 模型在 Cerebras 跟在普通 GPU 推理后端的吞吐差大约 10 倍。这个 10 到 15 倍的实测差距，跟物理层面 Cerebras SRAM 21 PB/s 对比 H100 HBM3 3.35 TB/s 那约 6300 倍带宽鸿沟之间，还有几百倍的 gap，被软件栈、工作负载、batch 处理这些系统级因素吃掉了。延迟方面，1000 tokens/秒对应每个 token 1 毫秒生成间隔，这个速度的硬件能力反过来暴露了 OpenAI 自己推理 stack 的瓶颈。OpenAI 在 Codex-Spark 上同时引入了持久 WebSocket 连接和 Responses API 重写，每次客户端服务端往返开销减少 80%，per-token 开销减少 30%，time-to-first-token 减少 50%。原来 OpenAI 的整套推理服务架构是按 GPU 推理"几十毫秒一个 token"那个延迟尺度设计的，跟 Cerebras 1 毫秒每 token 的硬件能力对不上，软件栈的开销反而成了瓶颈。Cerebras 的速度让 OpenAI 必须重做整个 web 层，硬件能力升级倒逼软件栈重构。成本方面，Cerebras 的硬件成本优势目前还没有被公开定价验证。Codex-Spark 只对 ChatGPT Pro 200 美元/月订阅用户开放，API 定价至今未敲定。OpenAI 选择高 ARPU 订阅档而不是开放 API 定价，意味着单位推理成本仍然显著高于普通 GPU 推理服务，需要靠 Pro 订阅的高客单价摊薄 Cerebras 的硬件固定成本。如果 Cerebras 真的便宜过 GPU，OpenAI 应该敢把 Cerebras 后端的 API 价格直接公开。延迟披露 API 价格这件事，可以理解为 cost-per-token 还没真正击穿 GPU 推理的成本曲线。作为参考，Cerebras 自己的推理云上 gpt-oss-120B 定价是 $0.69/M 输出 tokens，GPT-4o 的 API 售价是 $10/M 输出 tokens，但两者模型规模和能力差距很大，不能直接对比。但 Cerebras 的这套东西有几个关键的约束条件，框定了它现在能做什么、做不了什么。第一是模型大小限制。Codex-Spark 是蒸馏后的小模型，被显著压缩才能跑进 WSE-3 的 SRAM。WSE-3 的片上 SRAM 只有 44GB，frontier model 的参数量远超这个容量，必须做剪枝或蒸馏才能装得下。换速度的代价是损失约 19 个百分点的模型能力，Terminal-Bench 2.0 上 Spark 约 58% vs 标准 Codex 77.3%。这是 weight streaming 在工程上仍然不够好的旁证，OpenAI 选择用蒸馏小模型而不用 weight streaming 跑大模型，说明前者目前在工程上更可行。第二是容量限制。Codex-Spark 目前是 research preview，OpenAI 明确说明"由于运行在专用低延迟硬件上，使用受独立速率限制约束"。这个表述基本等同于承认 Cerebras 容量稀缺。750MW 全部部署完需要数千台 CS-3，对应 Cerebras 的整机产线是巨大的扩产挑战。这也是招股书里 RPO 约 246 亿美元有 85% 要到 2028 年之后才能确认收入的根本原因，硬件交付的物理速度限制了营收节奏。总结来说，OpenAI 这笔交易对 Cerebras 是阶段性胜利，但远没到终局。技术验证层面，Codex-Spark 证明 WSE-3 在中小模型推理上确实能做到 GPU 做不到的速度，这一点产业内已经形成共识。但商业兑现层面，Cerebras 还要解两个核心问题。一是大模型推理的 SRAM 容量限制，OpenAI 用蒸馏小模型而不用 weight streaming 跑大模型，说明 weight streaming 当前还撑不起完整的 frontier model。二是规模化部署的速度，每台 CS-3 都要一片完整的 5nm 晶圆和一套非标准化的整机集成流程，年产几千台 CS-3 是相当具体的工程瓶颈。对国产推理芯片的同行来说，这件事还有几个很具体的工程信号。端到端延迟优化的价值正在被产业重估。OpenAI 重写整个 Responses API 说明硬件再快，软件栈跟不上的话推理体验仍然受限，专用推理芯片的价值要靠端到端的延迟优化才能完全释放。蒸馏在产业部署里的实际重要性远超学术讨论的程度。OpenAI 这种规模都要为了跑 Cerebras 专门蒸馏模型，说明专用推理硬件 + 专用蒸馏模型这个组合是接下来一段时间的主流形态，单纯的"通用推理芯片"在竞争中会比较吃亏。 1000 tokens/秒正在成为 Agentic AI 工作流的新基准。慢于这个速度的推理硬件在交互式 agent 场景下会被边缘化，这个速度天花板对国产推理芯片是一个相当严峻的目标。 Cerebras 当前展示的能力是真实的，但商业化释放节奏被产能和工程瓶颈卡住了。研究 Cerebras 的真正关键，一是看它在 2027-2028 年能不能把 750MW 真的部署完，把 RPO 真的转成营收；二是看它能不能在 OpenAI 之外签下新的推理大客户。AWS 的 CS-3 上架是一个信号，但目前还没有第二个 OpenAI 量级的合同出现。从 G42 依赖到 OpenAI 依赖，客户质量在提升，但集中度的风险结构没有改变，只有客户组合真正分散了，估值里的风险溢价才能消化。

显示更多

306

转发到社区

热门用户