Macro_Lin ｜市场观察员(@LinQingV):$CBRS 假设 Cerebras 跟 CPO 结合起来，能否成为一台为极致推理而生的性能巨兽？ Cerebras WSE-3 的片上 SRAM 带宽是 21 PB/s，这个数字只对已经在片上的数据有效。一旦模型大到装不进单台 CS-3 的 44GB SRAM，就需要多台 CS-3 协同，activation 在机器之间流动。这段片间互联走的是 SwarmX 以太网 fabric，12 条 100GbE 链路，总带宽约 150 GB/s，跟片上 21 PB/s 差了超过十万倍。这是 Cerebras 部署 frontier model 时性能出现断崖的根本原因，也是 OpenAI 选择蒸馏小模型而不用 weight streaming 跑完整 GPT-5.3 的底层逻辑。如果把 CPO引入 CS 系统，把光引擎直接封装到 WSE 的 package 上，片间互联带宽有望从现在的 150 GB/s 跳到几十 TB/s，提升两个数量级。电信号不用走长距离 PCB trace 再到外挂光模块，直接在芯片旁边完成电光转换，延迟更低，功耗更低，信号完整性更好。跑一个万亿参数模型可能需要 20 到 30 台 CS 系统，权重全部常驻在各台机器的片上 SRAM 里不动，activation 通过 CPO 在机器之间高速流动。每台 CS 内部是 21 PB/s 的片上带宽处理几十层计算，跨机传一个几 MB 的 activation tensor 在几十 TB/s 的 CPO 下只需要亚微秒级延迟，基本可以被藏在计算延迟后面。系统的有效带宽会非常接近"全部在片上"的体验。这种配置下 Cerebras 对 GPU 方案的带宽优势是碾压级的，NVIDIA 再怎么升级 HBM 也追不上 SRAM + CPO 的组合。对比 NVIDIA 刚收购的 Groq 多芯片方案也有数量级优势，Cerebras 每个节点是 44GB、21 PB/s 的整片晶圆，Groq 每个节点只有 500MB、150 TB/s 的标准芯片，跨节点通信频率差两个数量级。工程难度非常大。在一整片 300mm 晶圆上集成 CPO 跟在常规芯片上做完全不同。光引擎的物理位置（晶圆没有传统意义上的 package 边缘）、WSE 本身 23kW 功耗旁边怎么保持激光器的温度稳定、CPO 光通道的良率怎么管理（WSE 的 compute core 可以靠冗余核补偿缺陷，光通道没有这个机制），每一个都是全新的封装工程问题。这条路如果走通了，Cerebras 的 wafer-scale 架构就到了终极形态。片上 21 PB/s SRAM 带宽负责计算，CPO 负责多机扩展，权重常驻不动，activation 光速流转，一台专为推理而生的性能巨兽。这套系统在 decode 吞吐上可能没有理论对手。推理是 AI 产业链里离收入最近的环节，谁的 token 更快更便宜，谁就吃到最大的商业化红利。尤其是高频交易、实时 Agentic 工作流、自动驾驶决策链这类对推理速度有确定性要求的场景，够用和极致之间的差距就是能做和不能做的区别。

2026.05.13 15:20

$CBRS 假设 Cerebras 跟 CPO 结合起来，能否成为一台为极致推理而生的性能巨兽？ Cerebras WSE-3 的片上 SRAM 带宽是 21 PB/s，这个数字只对已经在片上的数据有效。一旦模型大到装不进单台 CS-3 的 44GB SRAM，就需要多台 CS-3 协同，activation 在机器之间流动。这段片间互联走的是 SwarmX 以太网 fabric，12 条 100GbE 链路，总带宽约 150 GB/s，跟片上 21 PB/s 差了超过十万倍。这是 Cerebras 部署 frontier model 时性能出现断崖的根本原因，也是 OpenAI 选择蒸馏小模型而不用 weight streaming 跑完整 GPT-5.3 的底层逻辑。如果把 CPO引入 CS 系统，把光引擎直接封装到 WSE 的 package 上，片间互联带宽有望从现在的 150 GB/s 跳到几十 TB/s，提升两个数量级。电信号不用走长距离 PCB trace 再到外挂光模块，直接在芯片旁边完成电光转换，延迟更低，功耗更低，信号完整性更好。跑一个万亿参数模型可能需要 20 到 30 台 CS 系统，权重全部常驻在各台机器的片上 SRAM 里不动，activation 通过 CPO 在机器之间高速流动。每台 CS 内部是 21 PB/s 的片上带宽处理几十层计算，跨机传一个几 MB 的 activation tensor 在几十 TB/s 的 CPO 下只需要亚微秒级延迟，基本可以被藏在计算延迟后面。系统的有效带宽会非常接近"全部在片上"的体验。这种配置下 Cerebras 对 GPU 方案的带宽优势是碾压级的，NVIDIA 再怎么升级 HBM 也追不上 SRAM + CPO 的组合。对比 NVIDIA 刚收购的 Groq 多芯片方案也有数量级优势，Cerebras 每个节点是 44GB、21 PB/s 的整片晶圆，Groq 每个节点只有 500MB、150 TB/s 的标准芯片，跨节点通信频率差两个数量级。工程难度非常大。在一整片 300mm 晶圆上集成 CPO 跟在常规芯片上做完全不同。光引擎的物理位置（晶圆没有传统意义上的 package 边缘）、WSE 本身 23kW 功耗旁边怎么保持激光器的温度稳定、CPO 光通道的良率怎么管理（WSE 的 compute core 可以靠冗余核补偿缺陷，光通道没有这个机制），每一个都是全新的封装工程问题。这条路如果走通了，Cerebras 的 wafer-scale 架构就到了终极形态。片上 21 PB/s SRAM 带宽负责计算，CPO 负责多机扩展，权重常驻不动，activation 光速流转，一台专为推理而生的性能巨兽。这套系统在 decode 吞吐上可能没有理论对手。推理是 AI 产业链里离收入最近的环节，谁的 token 更快更便宜，谁就吃到最大的商业化红利。尤其是高频交易、实时 Agentic 工作流、自动驾驶决策链这类对推理速度有确定性要求的场景，够用和极致之间的差距就是能做和不能做的区别。

125

轉發到社區

熱門用戶