注册并分享邀请链接,可获得视频播放与邀请奖励。

搜索结果 PERFORMANCE
PERFORMANCE 贴吧
一个关键词就是一个贴吧,路径全站唯一。
创建贴吧
用户
未找到
包含 PERFORMANCE 的推特
接下来的这个 P, 表示过去的历史表现(Past Performance)。 狗狗币对催化剂的反应具有高度一致性。 比如在 2021 年 4 月,马斯克的推文让狗狗币的价格从 0.06 飙升到 0.7 美元,2022 年 11 月,马斯克收购推特后支持狗狗,价格从 0.07 涨到 0.16 美元,这些历史案例都说明了狗狗币在重大催化剂出现时的极高敏感性。 A 是时间和个人日程(At What Time and Personal Schedule)。 加密货币市场 24 小时不间断交易,但是催化剂发布后的三两天往往是波动最大的黄金窗口期。在消息发布后及时入场,波动放缓或达到目标价位时灵活退出,就需要多点时间盯盘。 这类标的最好不使用硬止损,因为做市商可以看到你的止损,尤其是散户集中入场的时候,资金排列是一个集中的整数,很容易被定点清除。 这个 R 指的是风险回报比(Risk-Reward)。 假设在 11 月 9 日突破高点的 0.22 附近入场,止损设置在 0.2 附近,潜在的止盈位置就一定要超过 1 比 3,高回报才有利可图,那止盈点至少要在 0.28, 这在当时的市场狂热程度来看,能达到这个目标位的概率很高。
显示更多
#preOPAI# 是否会受到OpenAI股权转让限制的影响? 1、preOPAI 底层的 OpenAI 股权通过直接投资获得,而非投资者之间的股权转让,不受该份近期声明影响。 2、preOPAI 由Republic发行的债务凭证,旨在反映 OpenAI 业绩表现,并非真实股票,持有代币不代表持有OpenAI股权。因此,preOPAI 的交易和转移不受OpenAI股权转让限制,因为它不等于 OpenAI 的股权。 Will preOPAI be affected by OpenAI’s equity transfer restrictions? 1. The underlying OpenAI equity exposure of preOPAI was obtained through direct investment, not through equity transfers between investors, and is therefore not affected by the recent statement. 2. preOPAI is a debt instrument issued by Republic, designed to reflect OpenAI’s performance. It is not actual equity, and holding the token does not represent ownership of OpenAI shares. Therefore, trading and transferring preOPAI are not subject to OpenAI’s equity transfer restrictions, as preOPAI is not OpenAI equity.
显示更多
0
21
35
2
转发到社区
绿龟伺候情侣做爱 口舌圣水 精彩刺激 88进群联系主页电报 群内目前五万部 一次收费永久观看 定期更新 封群包售后 This is a public online video, I only repost it and do not claim original work. No unauthorized use or impersonation. Adult performance content, no harmful guidance.
显示更多
0
0
3K
402
转发到社区
非常深度一篇文章,从GPU架构进化的第一性原理出发,重点解答市场长期担忧的问题:为什么每个GPU的HBM内存需求必然是指数级增长?为什么HBM需求不会像传统DRAM那样停滞或周期性崩盘?记录个要点当做阅读笔记 1. AI推理时代的核心KPI已彻底改变 CPU时代:最高KPI是“performance / FLOPS”(跑分越快越好)。 AI推理时代(尤其是agentic flow兴起后):最高KPI变成token经济学——单位成本/单位电力下的token吞吐量(throughput) + token生成速度。 Nvidia的“AI工厂”本质就是:最低成本输出最多token,同时尽量提高token速度。Pareto frontier曲线要不断向右上方移动。 2. Token吞吐量的第一性原理公式(核心结论) Token throughput = HBM Size(容量) × HBM Bandwidth(带宽)Batch size(同时处理的请求数) 的瓶颈 = HBM Size 因为每个请求都自带hot KV cache,必须放在HBM里。随着batch增大,KV cache线性增长,HBM容量必须同步线性增长(否则就像接驳车车厢太小,要分多趟拉人)。 每个user的token生成速度 的瓶颈 = HBM Bandwidth 生成每一个token都要多次高频读取HBM里的权重和KV cache。带宽越高,decode速度越快(就像接驳车车门越宽,旅客上下车越快)。 完整类比: 吞吐量 = 接驳车车厢容量(HBM Size) × 车门宽度(HBM Bandwidth)。 只要想让token吞吐量每一代翻倍,HBM的Size × BW乘积就必须翻倍。这是硬件天花板,软件优化无法根本替代。 3. CPU时代 vs. AI时代的本质差异 CPU时代:DDR只是“辅助”,升级极慢(DDR3到DDR5花了15年)。 原因:CPU有大量cache、superscaler等隐藏延迟;日常workload对带宽/容量需求低;app size增长慢。 AI/GPU时代:计算范式彻底转向“memory-bound”(内存受限)。 推理即内存,KV cache + 上下文长度 + 多请求并发,把所有压力都压在HBM上。HBM已从“锦上添花”变成决定性因素。 4. 验证与现实对应 Nvidia从A100 → Rubin Ultra的token吞吐曲线,与HBM Size × BW曲线在对数轴上几乎完全重合(文章提到图二)。 即使利用率(utilization)很难达到100%,HBM仍是整个系统的天花板。老黄必须逼御三家(三星、海力士、美光)不断升级,否则GPU就卖不出去。 5. 软件优化无法改变硬件需求 软件再优化(如LPU把权重搬到SRAM),也只是从另一个维度改善Pareto曲线,硬件天花板仍由HBM决定。就像CPU时代软件再快,CPU厂也必须持续升级跑分一样
显示更多
AI半导体终局推演2026(I) 当新token经济学范式从GPU算力转移到HBM 本文从从GPU架构进化路线本质出发,解释这个市场长久以来担心的问题: 每个GPU的HBM内存需求为什么一定会是指数增长,为什么HBM需求指数增长不会停滞? 并推导token经济学在当前架构下第一性原理:token吞吐 = HBM size X HBM BW带宽 同时讨论了,为什么GPU的天花板被HBM的两个发展维度所决定 HBM周期性这个话题争议一直很大,乐观派认为AI带来的需求比以前要大的多,但市场主流仍然认为前几次上升周期也有需求每年20%+增长,这次又有什么不一样呢?AI不影响HBM和传统DRAM一样有commodity属性,一旦在需求顶峰扩产遇上需求下行又会重蹈覆辙。 我们可以从算力芯片架构视角,从第一性原理出发,来拆解和推演一下这个问题:为什么这次真的不一样 ------------------------------- 历史:CPU算力时代 很久以来,我们都处在CPU主导算力的时代,CPU的最高级KPI就是performance,跑的更快,所以每一代的CPU都用各种方法来提高跑分,最开始是频率上升,后来是架构演进superscaler等等 这个时候为什么DDR不需要很快的技术进步速度?比如DDR3到DDR5竟然经历了15年之久 因为这个时期的DDR的角色是纯粹的辅助,而且辅助功能极弱,以业界经验,DDR的速度即便是提高一倍,CPU的performance一般只能提高不到20%这个量级 为什么DDR带宽速度提高了用处不大?两个原因 1. CPU设计了各种架构去隐藏 DDR延迟,比如superscaler,加大发射宽度,用海量的ROB和register renaming来提高并行度隐藏延迟,一级缓存cache,二级缓存cache,削弱了DDR的带宽速度需求 2. CPU workload对DDR带宽要求并不高,大部分日常负载比如打开网页,DDR带宽是严重过剩的,甚至云端负载 也就是说,在CPU时代,DDR的带宽速度是不太有所谓的,DDR4和DDR5除了少数游戏就没啥差别,甚至JEDEC标准也进步缓慢。 另外,绝大部分app需要一直停留在DDR上的部分并不多,需要的时候从硬盘上调度到DDR即可,app的size增长没那么快,导致对DDR的容量需求也较为缓慢。 所以最近十年来,平均每台电脑上的DDR容量大概从7~8GB变成了23GB,十年只增长了3倍。 而这部分升级缓慢直接影响了营收,size容量计价是赚钱的主要方式,速度的提高只是技术升级,提高size的单价,这两个的升级需求都不大,需求主要是随着电脑/手机数量增长而增长 所以DRAM在带宽速度和容量这两个维度上,一直是都是芯片产业锦上添花性质的附属品,DDR升级带来的边际效用是很低的,跟CPU时代的最高KPI几乎没什么直接联系 -------------------------------------------- 而到了genAI 大模型为主导的新时代,计算范式转移让最高级KPI起了根本变化 GPU发展到AI推理的时代,不再像CPU那样只看跑分,最高级的KPI不再是算力TOPS/FLOPS,而是token的成本,特别是单位成本/单位电力下的overall token throuput 其次是token吞吐速度,因为在agent时代,很多任务变成了串行,token吞吐速度成了用户体验的重要瓶颈。 这也是为什么老黄发明AI工厂概念的原因:最低成本的输出最多token,同时尽量提高token吞吐速度 AI训练时代,老黄的经济学是TCO(total cost ownership),买的GPU越多,省的越多 而老黄在推理时代的token经济学是: AI推理的毛利润很可观,所以逻辑已经转换成:Nvidia GPU是这个世界上让token单价最便宜的GPU,买的GPU越多,赚的越多 最高的KPI变成了Pareto frontier曲线,在提高token 吞吐throughput和提高token速度两个维度上尽量优化 (见图一) NVIDIA 的 token factory 代际进步,其实是在把整条 Pareto frontier 往右上推,这就是是AI推理这个时代最重要的KPI ---------------------------------- 接下来是本文最重要的逻辑链,如何从token吞吐量指数型增长的本质出发,推导出天花板瓶颈在HBM size和HBM 带宽的指数型增长 单卡GPU推理单线程batch size = 1的时代,token吞吐只有一个维度,就是HBM的带宽速度,带宽速度越高,token吞吐越大 但进入NVL72的年代,推理不再是单卡GPU时代,而是72个GPU + 36个CPU整个系统级别的token工厂,把HBM带宽和算力用满,获得极致的token吞吐量 Token 吞吐throughput的增长,依赖两个东西:同时批处理的请求数 X 每个user请求的平均token速度 也就是batch size X per user token 速度 以Rubin NVL72为例,在平均token速度是100 token/s的情况下,同时批处理1920个请求,得到token吞吐量是19.2万token/s 一个Rubin NVL72大概是120KW(0.12MW)的功率,所以得到单位MW能处理1.6M token/s (见图一) 所以,我们需要想方设法提高这两个参数:批处理数量batch size和per user token的平均速度,这两者相乘就是我们的最高KPI,也就是token的吞吐量 ------- 第一个参数:batch size的增长,瓶颈在HBM size 批处理量里的每一个请求req,都会自带kv cache,这部分kv cache是需要存在HBM里的,大小大概在几个GB到数十GB不等 因为hot kv cache是随时需要高频高速读取,所以必须放在HBM里,比如一个大模型的层数是80层,那么每一个token的生成阶段,都需要读取80次HBM里的kv cache 随着批处理数量batch size的增长,会带来hot kv cache的线性增长 又因为这个批处理量的所有请求的hot kv cache,都要放在HBM上,这也就带来了HBM size必须要随着批处理量batch size线性增长 就像是机场接驳车,登机口尽量快的接旅客到飞机,HBM size小了,相当于接驳车size小了,就得多接一趟 结论是:批处理量的数量batch size,瓶颈依赖于HBM size的增长 --------- 第二个参数:每个user请求的平均token速度,瓶颈在HBM带宽 大模型decode阶段的速度,瓶颈取决于HBM的带宽速度,因为每生成一个 token,都要把激活的权重和kv cache 读很多遍 LPU的出现,在batch不那么大的情况下,把激活权重这个部分搬到了SRAM上,但是每生成一个 token仍然要从HBM读很多次KV cache。HBM带宽越高,生成每一个token的速度也就越快,基本上是线性对应的 就像是机场接驳车,登机口尽量快的接旅客到飞机,hbm本身带宽速度就像是接驳车的车门有多宽,门越宽,旅客上接驳车越快 GPU的其他配置,都是在适配batch的增长以及要让token compute的速度配平HBM的增长,甚至会用多余的算力来获得部分的带宽(比如部分带宽压缩技术) —----- 在那个接驳车的比喻例子里 接驳车的车厢大小 = HBM Size(容量): 决定了一次能装下多少名旅客(也就是能同时装下多少个请求的 KV Cache)。车厢越大,一次能拉载的旅客(Batch Size)就越多。如果车太小,想拉100个人就得分两趟,系统整体的吞吐量就上不去。 接驳车的车门宽度 = HBM Bandwidth(带宽): 决定了旅客上下车的速度。门越宽,大家呼啦啦一下全上去了(Decode/生成Token的速度极快)。如果门很窄,哪怕车厢巨大能装200人,大家也得排着队一个一个挤上去,全耗在上下车的时间里了。 旅客的吞吐量 = 接驳车车厢容量 x 接驳车旅客上车速度(车门宽度) —--------------------------- 至此,我们从逻辑上推演出了token经济学的硬件需求第一性原理: Token throughput = HBM size X HBM Bandwidth AI推理这个时代的最高KPI,实际上是高度依赖于HBM的两个维度的进步的 如果要维持token throuput每一代两倍的增长,实际上意味着,每一代的单GPU上,HBM size X HBM BW带宽之积要增长两倍! 这也是历史上第一次,HBM内存的size可以影响最高的KPI token throughput! 要验证这个理论,可以把Nvidia从A100到Rubin Ultra这几代的token 吞吐throughput,和HBM size X HBM BW 放在同一个图里比较 (见图二) 可以发现,这两个曲线的走势在对数轴上惊人的一致 HBM size x HBM带宽增长的甚至要比token吞吐量更快,毕竟HBM决定的是天花板,实际上这个天花板增长的利用率utilization是很难达到100%的,也就是说,HBM size x HBM 带宽就算增长1000倍,其他算力和架构的配合下,很难把这1000倍的天花板潜力全部榨干 这条曲线不是巧合,而是系统最优化的必然解 throughput = batch × Bandwidth,这就是token factory 经济学最绕不开的第一性原理 —-------- 软件的影响呢?软件的优化会不会降低带宽的需求?降低HBM的需求? 这跟硬件是独立两个维度的,这好像在问,如果CPU上的软件优化了之后跑的更快,是不是CPU就十年不用发展了?反正软件跑的更快了嘛 这样的话,CPU厂还能赚得到钱吗?CPU想要存活下去,只有一条路可走,在标准benchmark,不考虑软件优化,每一代CPU必须要跑分更高,不然就卖不出去 GPU也是一样,软件优化如何,和自己的token吞吐量KPI每年都要大幅进步,是两回事 只要token的需求继续增长,对token throuput的追求就绝不会停止,那么对HBM size X HBM 带宽的追求也不会停止 如果HBM size和HBM 带宽发展慢了,老黄一定会亲自到御三家逼着他们技术升级,因为这就是老黄gpu的天花板,天花板要是钉死了不进步,老黄的GPU还能卖出去吗? 当然了,Nvidia需要绞尽脑汁去从异构计算的架构角度榨取HBM天花板之外的部分,比如LPU就是一个很好的尝试,把Pareto frontier从另一个角度改善了很多 (右半边高token速度的部分) —-------------------------------------- HBM内存已然告别了那个随波逐流的旧时代,在这条由指数级需求铺就的单行道上,以一种近乎宿命的方式走到了产业史诗的主舞台中央 推理范式第一性原理演化到这一步,只要老黄还要卖GPU,HBM就必须翻倍,而且必须代代翻倍。这是supply side的内生压力,与AI需求无关,与宏观周期无关,与hyperscaler的心情也无关 剩下的问题,只有一个: 当需求被物理锁定为指数增长的时候,供给侧的三个玩家,会不会还像过去三十年那样,亲手把自己再拖回一次周期的泥潭?
显示更多
0
7
197
62
转发到社区
AI半导体终局推演2026(I) 当新token经济学范式从GPU算力转移到HBM 本文从从GPU架构进化路线本质出发,解释这个市场长久以来担心的问题: 每个GPU的HBM内存需求为什么一定会是指数增长,为什么HBM需求指数增长不会停滞? 并推导token经济学在当前架构下第一性原理:token吞吐 = HBM size X HBM BW带宽 同时讨论了,为什么GPU的天花板被HBM的两个发展维度所决定 HBM周期性这个话题争议一直很大,乐观派认为AI带来的需求比以前要大的多,但市场主流仍然认为前几次上升周期也有需求每年20%+增长,这次又有什么不一样呢?AI不影响HBM和传统DRAM一样有commodity属性,一旦在需求顶峰扩产遇上需求下行又会重蹈覆辙。 我们可以从算力芯片架构视角,从第一性原理出发,来拆解和推演一下这个问题:为什么这次真的不一样 ------------------------------- 历史:CPU算力时代 很久以来,我们都处在CPU主导算力的时代,CPU的最高级KPI就是performance,跑的更快,所以每一代的CPU都用各种方法来提高跑分,最开始是频率上升,后来是架构演进superscaler等等 这个时候为什么DDR不需要很快的技术进步速度?比如DDR3到DDR5竟然经历了15年之久 因为这个时期的DDR的角色是纯粹的辅助,而且辅助功能极弱,以业界经验,DDR的速度即便是提高一倍,CPU的performance一般只能提高不到20%这个量级 为什么DDR带宽速度提高了用处不大?两个原因 1. CPU设计了各种架构去隐藏 DDR延迟,比如superscaler,加大发射宽度,用海量的ROB和register renaming来提高并行度隐藏延迟,一级缓存cache,二级缓存cache,削弱了DDR的带宽速度需求 2. CPU workload对DDR带宽要求并不高,大部分日常负载比如打开网页,DDR带宽是严重过剩的,甚至云端负载 也就是说,在CPU时代,DDR的带宽速度是不太有所谓的,DDR4和DDR5除了少数游戏就没啥差别,甚至JEDEC标准也进步缓慢。 另外,绝大部分app需要一直停留在DDR上的部分并不多,需要的时候从硬盘上调度到DDR即可,app的size增长没那么快,导致对DDR的容量需求也较为缓慢。 所以最近十年来,平均每台电脑上的DDR容量大概从7~8GB变成了23GB,十年只增长了3倍。 而这部分升级缓慢直接影响了营收,size容量计价是赚钱的主要方式,速度的提高只是技术升级,提高size的单价,这两个的升级需求都不大,需求主要是随着电脑/手机数量增长而增长 所以DRAM在带宽速度和容量这两个维度上,一直是都是芯片产业锦上添花性质的附属品,DDR升级带来的边际效用是很低的,跟CPU时代的最高KPI几乎没什么直接联系 -------------------------------------------- 而到了genAI 大模型为主导的新时代,计算范式转移让最高级KPI起了根本变化 GPU发展到AI推理的时代,不再像CPU那样只看跑分,最高级的KPI不再是算力TOPS/FLOPS,而是token的成本,特别是单位成本/单位电力下的overall token throuput 其次是token吞吐速度,因为在agent时代,很多任务变成了串行,token吞吐速度成了用户体验的重要瓶颈。 这也是为什么老黄发明AI工厂概念的原因:最低成本的输出最多token,同时尽量提高token吞吐速度 AI训练时代,老黄的经济学是TCO(total cost ownership),买的GPU越多,省的越多 而老黄在推理时代的token经济学是: AI推理的毛利润很可观,所以逻辑已经转换成:Nvidia GPU是这个世界上让token单价最便宜的GPU,买的GPU越多,赚的越多 最高的KPI变成了Pareto frontier曲线,在提高token 吞吐throughput和提高token速度两个维度上尽量优化 (见图一) NVIDIA 的 token factory 代际进步,其实是在把整条 Pareto frontier 往右上推,这就是是AI推理这个时代最重要的KPI ---------------------------------- 接下来是本文最重要的逻辑链,如何从token吞吐量指数型增长的本质出发,推导出天花板瓶颈在HBM size和HBM 带宽的指数型增长 单卡GPU推理单线程batch size = 1的时代,token吞吐只有一个维度,就是HBM的带宽速度,带宽速度越高,token吞吐越大 但进入NVL72的年代,推理不再是单卡GPU时代,而是72个GPU + 36个CPU整个系统级别的token工厂,把HBM带宽和算力用满,获得极致的token吞吐量 Token 吞吐throughput的增长,依赖两个东西:同时批处理的请求数 X 每个user请求的平均token速度 也就是batch size X per user token 速度 以Rubin NVL72为例,在平均token速度是100 token/s的情况下,同时批处理1920个请求,得到token吞吐量是19.2万token/s 一个Rubin NVL72大概是120KW(0.12MW)的功率,所以得到单位MW能处理1.6M token/s (见图一) 所以,我们需要想方设法提高这两个参数:批处理数量batch size和per user token的平均速度,这两者相乘就是我们的最高KPI,也就是token的吞吐量 ------- 第一个参数:batch size的增长,瓶颈在HBM size 批处理量里的每一个请求req,都会自带kv cache,这部分kv cache是需要存在HBM里的,大小大概在几个GB到数十GB不等 因为hot kv cache是随时需要高频高速读取,所以必须放在HBM里,比如一个大模型的层数是80层,那么每一个token的生成阶段,都需要读取80次HBM里的kv cache 随着批处理数量batch size的增长,会带来hot kv cache的线性增长 又因为这个批处理量的所有请求的hot kv cache,都要放在HBM上,这也就带来了HBM size必须要随着批处理量batch size线性增长 就像是机场接驳车,登机口尽量快的接旅客到飞机,HBM size小了,相当于接驳车size小了,就得多接一趟 结论是:批处理量的数量batch size,瓶颈依赖于HBM size的增长 --------- 第二个参数:每个user请求的平均token速度,瓶颈在HBM带宽 大模型decode阶段的速度,瓶颈取决于HBM的带宽速度,因为每生成一个 token,都要把激活的权重和kv cache 读很多遍 LPU的出现,在batch不那么大的情况下,把激活权重这个部分搬到了SRAM上,但是每生成一个 token仍然要从HBM读很多次KV cache。HBM带宽越高,生成每一个token的速度也就越快,基本上是线性对应的 就像是机场接驳车,登机口尽量快的接旅客到飞机,hbm本身带宽速度就像是接驳车的车门有多宽,门越宽,旅客上接驳车越快 GPU的其他配置,都是在适配batch的增长以及要让token compute的速度配平HBM的增长,甚至会用多余的算力来获得部分的带宽(比如部分带宽压缩技术) —----- 在那个接驳车的比喻例子里 接驳车的车厢大小 = HBM Size(容量): 决定了一次能装下多少名旅客(也就是能同时装下多少个请求的 KV Cache)。车厢越大,一次能拉载的旅客(Batch Size)就越多。如果车太小,想拉100个人就得分两趟,系统整体的吞吐量就上不去。 接驳车的车门宽度 = HBM Bandwidth(带宽): 决定了旅客上下车的速度。门越宽,大家呼啦啦一下全上去了(Decode/生成Token的速度极快)。如果门很窄,哪怕车厢巨大能装200人,大家也得排着队一个一个挤上去,全耗在上下车的时间里了。 旅客的吞吐量 = 接驳车车厢容量 x 接驳车旅客上车速度(车门宽度) —--------------------------- 至此,我们从逻辑上推演出了token经济学的硬件需求第一性原理: Token throughput = HBM size X HBM Bandwidth AI推理这个时代的最高KPI,实际上是高度依赖于HBM的两个维度的进步的 如果要维持token throuput每一代两倍的增长,实际上意味着,每一代的单GPU上,HBM size X HBM BW带宽之积要增长两倍! 这也是历史上第一次,HBM内存的size可以影响最高的KPI token throughput! 要验证这个理论,可以把Nvidia从A100到Rubin Ultra这几代的token 吞吐throughput,和HBM size X HBM BW 放在同一个图里比较 (见图二) 可以发现,这两个曲线的走势在对数轴上惊人的一致 HBM size x HBM带宽增长的甚至要比token吞吐量更快,毕竟HBM决定的是天花板,实际上这个天花板增长的利用率utilization是很难达到100%的,也就是说,HBM size x HBM 带宽就算增长1000倍,其他算力和架构的配合下,很难把这1000倍的天花板潜力全部榨干 这条曲线不是巧合,而是系统最优化的必然解 throughput = batch × Bandwidth,这就是token factory 经济学最绕不开的第一性原理 —-------- 软件的影响呢?软件的优化会不会降低带宽的需求?降低HBM的需求? 这跟硬件是独立两个维度的,这好像在问,如果CPU上的软件优化了之后跑的更快,是不是CPU就十年不用发展了?反正软件跑的更快了嘛 这样的话,CPU厂还能赚得到钱吗?CPU想要存活下去,只有一条路可走,在标准benchmark,不考虑软件优化,每一代CPU必须要跑分更高,不然就卖不出去 GPU也是一样,软件优化如何,和自己的token吞吐量KPI每年都要大幅进步,是两回事 只要token的需求继续增长,对token throuput的追求就绝不会停止,那么对HBM size X HBM 带宽的追求也不会停止 如果HBM size和HBM 带宽发展慢了,老黄一定会亲自到御三家逼着他们技术升级,因为这就是老黄gpu的天花板,天花板要是钉死了不进步,老黄的GPU还能卖出去吗? 当然了,Nvidia需要绞尽脑汁去从异构计算的架构角度榨取HBM天花板之外的部分,比如LPU就是一个很好的尝试,把Pareto frontier从另一个角度改善了很多 (右半边高token速度的部分) —-------------------------------------- HBM内存已然告别了那个随波逐流的旧时代,在这条由指数级需求铺就的单行道上,以一种近乎宿命的方式走到了产业史诗的主舞台中央 推理范式第一性原理演化到这一步,只要老黄还要卖GPU,HBM就必须翻倍,而且必须代代翻倍。这是supply side的内生压力,与AI需求无关,与宏观周期无关,与hyperscaler的心情也无关 剩下的问题,只有一个: 当需求被物理锁定为指数增长的时候,供给侧的三个玩家,会不会还像过去三十年那样,亲手把自己再拖回一次周期的泥潭?
显示更多
0
61
1K
303
转发到社区
华为τ scaling定律营销策略,无非是more than moore的广义摩尔定律的另一种说法而已 作为芯片架构师,我更感兴趣的,还是芯片密度提升,ppt上41%能耗提升和12.7%性能提升,到底是怎么实现的 看完了论文,感觉华为这次创新,本质上是用设计复杂度高 + 高制造成本 + 超前散热,一定程度弥补了工艺差距 ----------------- 1. 华为芯片堆叠带来的等效密度提升,是虚假宣传还是真的,是不是工艺突破?有没有实打实的好处? 等效密度提升的来源,是两片芯片用hybrid bonding技术绑在一起,投影面积理论上能减小一半,但第一代不是全芯片双层折叠,而是选择性折叠关键logic,所以只有大概53%的芯片面积实现了折叠(密度155->238),等到后面几代折叠面积会逐渐增大,到2030年接近全折叠(密度155->292) 这2026第一代等效密度从 2025 年 155 MTr/mm² 跳到 2026 年 238 MTr/mm²,时钟频率也提升了12.7%,功耗比提升41%,表面上看似乎和工艺突破没有什么区别,但有一点重要区别就是leakage power华为从头到尾没有提,只要工艺节点不变,gate leakage、junction leakage 不会因为 3D stacking 自动改善 2030年到2031年的等效密度突变,大概率是来自于2层堆叠到3层堆叠,正如2025到2026年的等效密度突变,时钟频率突变,来自单层到2层折叠 所以从leakage没提这个事来看,这个2031年等效1.4nm,和工艺节点上的突破没有联系。 本质上是用设计复杂度高 + 高成本 + 超前散热 + 超前部署advanced packaging,一定程度弥补了工艺差距 ----------- 那么这样看起来虚假的等效密度提升,有用处吗?好处在哪里? 有的,设计上topology折叠,原来要跑几毫米的水平走线,折叠后变成了几十微米。降低了super buffer/bus的长度,降低了clock tree的深度(clock depth -42%、clock wire -28%),clock skew也带来了改良(-25%),这对动态功耗的改善是实实在在的。部分critical path的缩短,也让时钟频率的上升更容易 所以ppt roadmap上performance的提升,从2025年到2026年上升了12.7%,大部分都是来自于时钟频率的上升(12.7%) 所以好处基本上是topology拆分电路逻辑设计上带来的提升 既然没有实质上的工艺提升,华为芯片堆叠带来等效密度提升的trade off代价在哪里? 三个代价:散热超前发展,设计复杂度高,制造成本变高 最大的代价就是热密度的同步上升,理论上logic on logic都是CPU execution发热最严重的区域,这部分折叠起来相当于功耗密度直接翻倍,但算上41% power efficiency改善,功耗密度仍只比非堆叠方案高40%左右。所以第一代只能对最关键的部分做折叠,大概只占全芯片面积的53%。 所以散热技术也被逼的超前发展,直接上毫米级的MEMS风扇,做micro-cooling fan。 另外的代价就是设计复杂度的变高,critical path的折叠,哪个部分的logic能折叠,折叠之后又会带来从前端到后端的巨大变化要推翻重来 现有的所有EDA工具也不可能支持3D topology,论文自己也承认,full-scale LogicFolding需要全新的3D-native EDA toolchain,把多层stacked dies当作单一连续设计实体处理。哪些logic能折叠、折叠后的inter-die timing closure怎么做,Physical Design(PD)也是难点 制造成本也会更高,被迫超前部署advanced packaging封装,1.5~2um的hybrid bonding + logic on logic都是很有挑战需要显著更高的成本 以前一层wafer做一次光刻;现在两层wafer分别做光刻再bonding,加上hybrid bonding的overlay控制(论文要求<0.5μm)、TSV、KOZ keep-out zone、冗余修复、良率乘法损失,每颗芯片的制造成本和测试成本都要显著上升 -------------------------- 2. Tau scaling这个说法,scaling的到底是什么,这个scaling技术路线是不是一次性的design topology红利?潜力如何?持续进步的空间在哪里? τ Scaling的核心主张是:用时间常数τ替代几何线宽作为全栈优化目标,在器件、电路、芯片、系统四个层级分别压缩特征延迟 公式本身没有任何新物理。"关注瓶颈延迟"是所有架构师都在做的事情。整个行业都知道互联RC是延迟瓶颈,TSMC每一代工艺都在用low-k dielectrics/semi-damascene等手段降RC。把一个众所周知的优化方向包装成"定律"是显然的营销宣传手段,本质是More than Moore的广义摩尔定律的另一种说法 抛开marketing,华为目前所谓RC delay的改善,本质上是芯片堆叠之后,topology距离缩短,让匹配的effective RC都变小,不是RC工艺常数 至于scaling的意思,是能持续发展的一条roadmap。这里的持续改善路径指的是,全芯片堆叠的层数越来越多,从25~30年的2层堆叠,到31年开始的3层堆叠,以后甚至会考虑4层堆叠 第一代折叠技术甚至不是全芯片双层折叠,而是选择性折叠关键logic,所以只有大概53%的芯片面积实现了折叠(密度155->238),等到后面几代折叠面积会逐渐增大,到2030年接近全折叠(密度155->292)。2031年的roadmap之所以会出现一个阶跃,就是因为那是从2层折叠到3层折叠的时间点。 但需要注意的是,这个scaling方法的边际效应是逐渐缩小的,折叠成双层的收益是100%,2->3层的收益就只有50%,如果2035年再从3->4层堆叠,收益就只有33%了 另外随着堆叠层数变高,上面说到的三个挑战,散热,设计复杂度,成本,都是越来越大 --------------------- 3. 华为的芯片堆叠,是不是TSMC/AMD已经有的hybrid bonding技术?华为做到的是cache on logic,cache on cache,还是logic on logic,logic on logic最大的散热问题是怎么解决的? 是已经有的技术没错,但同时也是把现有技术指标做到了领先也是真的,3D堆叠本身不是新技术,TSMC的hybrid bonding量产还是6um,华为论文给出Kirin 2026的hybrid bonding pitch是1.5μm 我在刚刚看到华为的堆叠消息之后,第一反应也是怀疑和AMD的3D V cache类似,它主要把 SRAM cache 叠在 已经有的L3 cache 区域上,通常会避免直接堆在最热的 CPU execution logic 上,就是避免散热问题,毕竟SRAM 的功耗密度和热点特性与high-activity logic 不一样,如果最热的logic on logic堆叠,散热恐怕会碰到困难 但看了更多数据之后,clock buffer -56%、clock depth -42%、clock wire -28%,这些只有在core内部的clock distribution被重构时才可能发生。纯SRAM stacking不会碰core内部的clock tree。另外如果只是cache on cache,大概率是不需要单独MEMS微型风扇额外散热的,证据普遍都指向logic on logic方式 华为这个技术的精妙之处在于,logic on logic 折叠之后热密度并没有翻倍,而是因为topology的好处,能耗下降了30%,这样热密度只上升了40~50% 而第一代没有完全把整个最热的execution logic 100%堆叠起来,论文也明确说selectively applied along key critical paths,只是大概53%有选择性关键路径会堆叠起来,可能颗粒度都没有那么好,只是IP堆叠在IP上,那么热密度上升也许能维持在20%以内 但这条道路继续前行,超前发展的散热就成了必然,现在是MEMS微型毫米级的主动散热风扇,紧贴处理器传导效率高,和华为手机一样,散热堆料特别足,而且技术领先同行。 以后怕是要把HBM7/8的微流道散热技术提前用起来了,毕竟HBM7/8要上24+层堆叠,华为很可能要在提前用上下个世代的散热技术了 ------------------------- 4. 从架构角度来说,最重要的问题,华为41%的power efficiency(能耗比)提升,到底是怎么实现的?为什么AMD的3D V cache没有这么大的提升? 首先确定41%的定义。论文只说"SoC performance-core power efficiency improved by 41%",没有给出benchmark名称、Voltage/Freq点、温度条件、功耗边界。但PPT roadmap上有一个关键线索:ISO-Power Performance的数字,2025年是2.75,2026年是3.1,提升12.7% 这个时钟频率提升12.7%完全一致,可以理解为,同功耗的性能提升是12.7%,绝大部分是时钟频率提升带来的 至于能耗比上优化的猜测是,LogicFolding缩短critical path → 在固定Vdd下Fmax从2.75GHz提升到3.1GHz → 这意味着在原来的2.75GHz频率下,有了约12.7%的timing headroom → 这个空间在iso-performance模式下可以换成更低的Vdd 另外的能耗比的提升,可能也来自于电路折叠之后,cache hit latency的下降。从业界经验来看,一般L2/L3 cache hit latency下降10%,CPU整体性能会有至少5%的提升 ppt里显示SRAM latency下降30%,估计会有一部分转化为cache hit latency的下降 AMD的3D V cache没有这么大的提升,主要是因为AMD的底层logic die并没有重新设计,3D cache的延迟latency不仅没有减小反而加大,只是增加了cache大小,收益不如latency下降那么明显。 另一方面,clock skew的下降,critical路径变短,造成电路timing变好,意味着华为可以使用更低的vdd(猜测甚至能低7~8%),以及路径缩短所带来的RC的下降(考虑到clock buffer -56%、wire -28%、SRAM pJ/bit -24%这些数字,比如C_eff下降10~15%合理),再加上clock tree的整体缩短和下降,确实是有可能在部分Voltage/Freq点做到同性能下,做到30%的功耗下降的,而30%的功耗下降换算过来就是41%的power efficiency 对比苹果和高通,每一代手机芯片在iso-power下单核性能一般提升10-20%,iso-performance下功耗一般降30-40%,这是V/F曲线的特性决定的,所以从经验上来说,数字是对的上的。 所以这个power efficiency(能耗比)的提升,从现有的数字上来说可以从topology推导出来是合理的,可能真的和工艺节点没有太大关系 ---------------------------- 5. 这个技术路线有没有可复制性,其他家会不会效仿? 短期内不会大规模效仿,因为性价比和风险收益比来说不好。长期来看,这个方向所有人都在走,只是名字不一样 华为做LogicFolding的根本驱动力是制裁,工艺节点被卡在7nm,只能在封装,散热,和设计层面想办法弥补。华为也为此付出了不小的代价:散热成本,设计复杂度,以及制造成本更高(包括良率)。这是一个被逼出来的路线,不是一个自然选择 其他玩家在用TSMC就能做到正常的经济迭代,是没有必要冒着这个风险,去超前迭代散热技术和设计复杂度的 长期来看,Intel的Foveros、TSMC的SoIC、AMD的MI300的3D stacking都在朝同一个方向走。如果继续追最先进节点的经济性持续恶化,那么"固定一个成熟节点+3D topology optimization"的路线会越来越有吸引力 散热方面,MEMS微型风扇和微流道也会成为未来HBM散热的主流 ------------------- 总结一下,华为这次的创新,绝对是值得尊重的,在制裁环境下,用极高的设计复杂度和成本,在一个被锁定的工艺节点上大胆重新设计,榨出了一次大的topology红利,虽然它有天花板。每多加一层的边际收益递减(堆叠1->2层, 2->3层, 3->4层,提升百分比变小),leakage无法解决,散热越来越难,3D EDA工具链更是全新的挑战。 但这个Tau scaling不是一条可以走十年的指数增长路径,每次爬完一个台阶,下一个台阶更难爬,而且台阶更矮收益更小,华为以后想缩小差距,还得再想想靠什么其他的路线
显示更多
0
34
281
84
转发到社区
少年!给你一次机会 你会选择binance还是OKX? (Binance和OKX都是meme喜欢的交易所) 薪资待遇:⭐⭐⭐⭐⭐(Web3 天花板级别) 创始人:Star Xu(徐明星) 作为极客出身的领导者,Star 至今仍活跃在产品一线。他的管理逻辑是典型的 “工程师文化”:数据说话、逻辑至上、极致打磨。在 OKX,产品力高于一切公关辞令 虽然作为私有公司不披露财报,但根据链上公开手续费消耗及 B 端业务估算: 2025 年净利润约 80-100 亿美元,全球员工约 5000 人 OKX 薪资结构为:Base + 绩效奖金 + 长期激励,公司现金流充沛,整体薪资在 Web3 行业属于顶级水平。部分或全部薪资以稳定币结算:USDT,USDC 标称年终奖:2-4 个月工资,但对于 S 级绩效员工,特别是产研人员:年终奖可能达到:6-12 个月工资包括:高额补充医疗保险,牙科保障,心理咨询支持,同时提供全球团队团建机会(迪拜 / 塞舌尔等),高端办公设备补贴 工作强度:⭐⭐⭐⭐⭐ 极高的薪资,对应的是极高的 职业磨损率。管理风格 公司内部文化:Hardcore(极致硬核)组织结构扁平,但 Star 意志贯穿整个公司。如果产品逻辑存在漏洞,在内部评审会上可能被老板 当面严厉质疑。 公司文化核心拒绝平庸,只欢迎 高度自驱动的极客型人才 Web3 市场 24/7 不休市。因此员工常态:凌晨处理 Bug,跟进美国监管政策 应对市场波动,虽然没有强制打卡制度,但任务优先级极高,异步沟通要求快速响应。 公司被许多人称为:Web3 黄埔军校 入职难度:⭐⭐⭐⭐⭐ 也是top1级别的交易所,考研参考binance的入职难度,并且OKX更喜欢技术人才 求职门槛(非技术): 依旧,实习生需要有中小交易所或者二线交易所的1-2段经验,或者有在web2互联网头部公司的工作经历,学历能力综合都看 面试流程:三轮筛选 第一轮|业务面 第二轮|直属 Leader 面 第三轮 HR面 额外可能有的轮次: • 第4轮:Director/CMO/跨团队面试,或最终Offer讨论 2026年1月:全球机构业务(Institutional Business)重组,机构销售团队约三分之一离职(来源不一:8-10人裁员+3-4人自愿离职,或称团队一半受影响) 部分老员工提到“半年一次10-20%周期性调整”“高离职率”“管理层变动频繁导致不确定性”,文化偏“恐惧驱动”“政治化”。但2026年至今未见全公司大裁(与2025行业裁员潮如Coinbase等不同) OKX官方仍在扩招(官网职位开放中),强调合规+全球牌照布局下的增长。员工真实评价:负面居多提到“突然调整、无明显理由”“工作不稳定”;正面是薪资福利尚可、crypto行业常见 部分老员工提到“半年一次10-20%周期性调整”“高离职率”“管理层变动频繁导致不确定性”,文化偏“恐惧驱动”“政治化”。 但2026年至今未见全公司大裁(与2025行业裁员潮如Coinbase等不同)。OKX官方仍在扩招(官网职位开放中),强调合规+全球牌照布局下的增长。 员工真实评价:负面居多提到“突然调整、无明显理由”“工作不稳定”;正面是薪资福利尚可、crypto行业常见 公司强调定期绩效评审(performance reviews),与核心价值观(如“We Before Me、Do the Right Thing、Get Done”)挂钩,支持职业发展。部分反馈提到“清晰的晋升流程”“市场薪资匹配”“领导关心成长”。但Glassdoor/TeamBlind真实吐槽较多:晋升靠“visible + 忠诚领导”胜过纯绩效,“政治文化重”“favoritism(偏袒)”“legacy员工 vs 新人区别对待”。新人需高强度表现+关系网才能快升 公司强调定期绩效评审(performance reviews),与核心价值观(如“We Before Me、Do the Right Thing、Get Done”)挂钩,支持职业发展。部分反馈提到“清晰的晋升流程”“市场薪资匹配”“领导关心成长”。 但Glassdoor/TeamBlind真实吐槽较多:晋升靠“visible + 忠诚领导”胜过纯绩效,“政治文化重”“favoritism(偏袒)”“legacy员工 vs 新人区别对待”。新人需高强度表现+关系网才能快升 规模:全球5000+员工(2025-2026),分布式运作(总部San Jose/塞舌尔,重点区域新加坡、香港、迪拜、美国等,适应牌照需求)。比Binance(1.4万+)小 关键董事/高管:Akhtar M. Mamode、Jing Wang (JW)、Vincent Xu 等(领导团队相对精简,3位核心Director) meme个人见解: OKX稍稍币binance难度低,有能力的人考研二选一了,其实都差不多,但是两家是宿敌,对于OKX来说,是少了像币安的何一,CZ,等声量大的人物,坐镇的只有一个徐明星 但是对于求职者来说,OKX的业务也非常的广泛,机会也很多(OKX的美女也很多)作为行业发展的最终选择是很不错的
显示更多
最新市场清晰法案关于稳定币的条款是利空么?如果一直关注这个法案的进展,就会知道被动稳定币余额的收益从一开始就行不通,而且不太可能最终纳入协议。其实在2月下旬白宫加密工作会议上,已经明确“支持有限制的稳定币奖励,但禁止简单持有就获得类似利息的收益,允许的奖励仅限于与特定交易或活动挂钩”,所以这个条款并不是这两天才出来的。那么稳定币发行商和渠道商会如何应对破局呢? “禁止简单持有稳定币就获得利息 ,允许奖励与特定交易或者活动挂钩。” 这种条款给到国内任何一个互联网公司,运营人员都会说“这我熟啊”。互联网公司的运营能给你玩出花来。 1、对发行商(Circle、Paxos 等)来说 他们本来就不能直接向持有人付息储备收益也不能“间接”通过第三方简单分给持有人。但是可以: 1)把储备收益转为“生态补贴/营销预算/服务费”: 不再按持有量直接分润给 Coinbase 等渠道平台,而是签固定或 performance-based 的合作协议(例如平台帮助推广支付用例、提供流动性支持、合规报告服务等)。 协议必须明确不与持有量直接挂钩,而是与“活动成果”挂钩(交易量、支付笔数、链上活跃度)。但只要有真实业务活动,就有辩护空间。 2)推动用户主动“deploy”资金: 发行商不付息,但鼓励用户把稳定币转入平台内/链上借贷等DeFi 协议(Aave、Morpho、Compound 等),用户自己赚取市场利率。发行商可从这些协议的手续费、分成中间接获利。 2)开发“utility-first”产品:把稳定币定位为支付/结算工具,发行商通过支付网络合作(Visa、Shopify 等)或跨境汇款收取服务费,而不是靠持有收益。 2. 对于渠道商 / 分销商(Coinbase、Kraken、钱包、交易所等)来说 它们受影响最大的群体。核心是把“被动收益”彻底转为“基于活动的奖励”,这是法案明确允许的。可能的运营策略: 1)重构奖励为“明确活动挂钩”(最直接、最安全): Lending / Staking / Liquidity Providing用户必须主动把稳定币借贷到平台池或 DeFi 协议才拿收益(Coinbase 已有 Prime+ lending 产品,年化可达 5.75%)。把原来“持有即赚”改成“借出即赚”。 2)在平台内深度整合 DeFi / On-chain 活动(最有增长潜力): 在 App 内一键接入 Morpho、Aave、Spark 等协议,用户在 Coinbase 界面内 lend USDC 赚 yield。 平台做 LP(流动性提供者),用户提供资金参与,平台和用户分成。 这符合“activity-based”,同时把 yield 来源从“发行商储备”变成“市场借贷利率”,绕开发行商直接付息的限制。 2)Transaction / Volume-based:按交易量、手续费返还、支付笔数给奖励(例如“每月支付/转账超 X 笔,返 1-2% 奖励”)。 3)Loyalty(忠诚度)/Usage Programs:积累 points 用于平台使用、fee discount、NFT 等,points 来源于真实使用行为而非单纯持有余额。 4)稳定币 + 交易 / 衍生品 / 支付场景绑定奖励,推动真实支付用例(长期根本解): 稳定币真正用于 e-commerce、跨境 B2B、汇款时,自然产生“活动”,奖励就有正当理由。Coinbase在推稳定币支付服务,未来可在此基础上叠加奖励。这不就是信用卡返现嘛。 交易所在这方面改动的空间其实很大。 要理解清晰法案的这些条款并完全不是“禁止收益”,而是逼着稳定币从存款替代品变成“支付+DeFi 工具”,因为银行业反对之前的条款就是担心存款大规模迁移搬家,从银行存款变成了稳定币储备但也不去做任何真实的交易、链上活动。 发行商和渠道商只是需要转向基于商业活动和链上行为的激励,不仅合规,监管也满意,银行业也不会说啥(毕竟基于商业活动和链上行为的激励,比起单纯的持有就能得奖励已经多了好几步操作,有一定的用户门槛了) 从这个角度来看,Circle昨晚大跌并不仅是新的清晰法案稳定币条款因素导致的。更直接的原因可能是Tether跟四大审计事务所其中一家签订合同(之前Tether得季度审计报告都是英国伦敦一家审计机构给出的,规模也不小,但是公信力还是远远比不上四大),意味着四大审计机构开始接受Usdt做为合规收益的载体。如果未来审计通过,有明确的报告,其实是扫除了Tether上市的一个障碍。
显示更多
0
22
86
18
转发到社区
财报前瞻:Arista Networks (ANET) 2026年第一季度财报 历史业绩表现与当前市场预期一致性 Arista Networks明天即将发布的2026年第一季度财务报告。 Arista在过去连续多个季度中展现了极强的业绩韧性,其盈利能力和收入增长始终保持在分析师预期的上限。根据历史数据,公司在过去八个季度中每一次都实现了盈利超预期,这种极高的胜率在波动性巨大的科技板块中属于罕见现象。 对于2026年第一季度,市场一致预期已经形成了一个相对较高的基准。目前分析师对每股收益的平均预期约为0.81美元至0.82美元,较2025年同期的0.65美元有显著增长。在收入端,市场普遍预期为26.2亿美元,这与公司管理层此前给出的约26亿美元的业绩指引高度契合。 值得注意的是,在过去90天内,共有24位分析师上调了对ANET的年度盈利预测,而下调者为零。这种单向的业绩修正反映了投资界对于人工智能(AI)基础设施需求持续高涨的集体共识。这种“业绩修正向上”的势头通常是财报超预期的前导指标。 财报核心驱动因素:超大规模云服务商(Cloud Titans)的资本支出 Arista的业务模式高度依赖于“云巨头”的投资节奏,主要包括Meta、微软、谷歌和甲骨文。这些客户在2025年贡献了公司约48%的收入,因此其资本支出(Capex)的任何变动都会直接传导至Arista的业绩中。 微软与Meta的资本狂飙 微软近期公布的信号显示,其2026日历年的资本支出预计将达到1900亿美元,远超此前预测的1520亿美元。微软CFO Amy Hood明确指出,为了满足AI需求,必须在数据中心建设上进行更多投入,且由于GPU和存储容量的限制,这种投入在2026年之前都将维持高压状态。 Meta作为Arista的另一个核心客户,将其2026年资本支出指引从之前的1150亿-1350亿美元上调至1250亿-1450亿美元。Meta的AI广告引擎和Llama系列大模型的持续迭代,要求其底层网络具备更强的并发处理能力和更低的延迟。Meta在财报中提到,其AI支出不仅用于模型训练,更开始转向更大规模的推理(Inference)集群,这为Arista的800G交换机提供了庞大的增量市场。 谷歌Virgo架构的溢出效应 谷歌在2026年第一季度的表现同样亮眼,其云业务收入达到200亿美元,同比猛增63%。谷歌的“Virgo”AI数据中心架构被分析师视为Arista的重要利好因素。Virgo架构强调网络的可扩展性和开放标准,这与Arista一直推崇的以太网(Ethernet)优先策略不谋而合。随着谷歌云订单积压量(Backlog)翻倍至4620亿美元,Arista作为关键网络设备供应商,其订单能见度(Visibility)已经延伸到了2027年。 技术周期迭代:以太网对InfiniBand的替代效应 AI基础设施领域正经历一场从私有协议(如英伟达的InfiniBand)向开放标准以太网转型的结构性变革。这一趋势是Arista股价长期溢价的核心逻辑。 开放以太网联盟(UEC)与ESUN规范 Arista作为超级以太网联盟(UEC)的创始成员,正在推动针对AI优化的以太网规范落地。由于AI集群规模已从数千个GPU扩展到数百万个XPU(通用加速器),传统的InfiniBand在成本、互操作性和可维护性方面面临巨大挑战。Arista的EOS(可扩展操作系统)配合RoCE(聚合以太网上的远程直接内存访问)技术,已经能够在大规模训练负载中提供与InfiniBand相当甚至更优的性能。 公司管理层最近将2026年AI网络收入目标从27.5亿美元上调至32.5亿美元,涨幅高达18%。这种激进的目标上调反映了以太网在超大规模AI后端网络中的渗透速度远超预期。戴尔奥(Dell'Oro)的数据确认,以太网在2025年已经实现了对InfiniBand的反超,占据了AI后端网络市场的主要份额。 800G统治力与1.6T路线图 Arista的7800R4系列平台已成为当前AI数据中心的主力军。到2026年第一季度,Arista已向超过100家累计客户交付了800G产品,其在高端交换机市场的占有率维持在90%以上。 此外,Arista在OFC 2026展会上发布的XPO(超高密度可插拔光学器件)协议,为即将到来的1.6T时代奠定了基础。XPO技术通过液冷设计解决了1.6T模块的散热瓶颈,将交换机机架占用空间减少了75%。这种技术前瞻性不仅确保了公司未来的ASP(平均售价)提升,更进一步加深了与微软等液冷先行者的绑定。 尽管Arista在数据中心交换领域占据先机,但竞争对手的动作不容忽视。 思科的追赶与Silicon One架构 思科(Cisco)近期表现强劲,其在2026财年Q2录得了创纪录的153亿美元收入。思科的AI基础设施订单在单个季度内达到了21亿美元,公司预计2026财年全年的AI订单将突破50亿美元。思科的Silicon One架构提供了高达102.4 Tbps的吞吐量,正试图通过“安全AI工厂”理念抢夺企业级和主权云市场。然而,思科在超大规模客户中的积累仍不及Arista深厚,且其复杂的OS版本管理依然是不少云巨头的痛点。 博通的供应商与竞争者双重身份 博通(Broadcom)在2026年Q1的AI相关收入达到8.4亿美元,同比增长106%。博通的Tomahawk 6交换芯片是Arista等厂商的核心组件,但博通也在通过提供全栈定制ASIC(如谷歌的TPU和Meta的MTIA)来直接锁定客户的网络预算。博通CEO Hock Tan表示,到2027年其AI芯片收入将超过1000亿美元,这种量级的增长意味着博通正成为AI基础设施领域的新重力中心。 英伟达Spectrum-X的捆绑威胁 英伟达(Nvidia)虽然在InfiniBand领域面临挑战,但其迅速推出的Spectrum-X以太网平台正展现出极强的进攻性。通过将GPU与网络设备捆绑销售,英伟达成功锁定了包括Meta在内的多个核心客户的后续订单。Wolfe Research的分析师指出,Arista面临的最大战略风险在于英伟达利用其在计算领域的垄断地位进行垂直整合。 Arista的估值目前处于历史高位,这不仅是对其卓越业绩的认可,也预示着财报后的股价表现将面临极高门槛。 综合利多与利空因素总结 利多因素(Bulls) 强劲的二阶需求导向:英伟达GPU的每一次发货,最终都会转化为对Arista交换机的需求。 现金流充裕:截至2025年底,公司持有107亿美元现金,且没有任何债务压力。 软件定义的防御性:EOS系统的稳定性使其客户粘性极高,即使在硬件价格竞争激烈的环境下,也能维持超过60%的毛利率。 利空因素(Bears) 市场预期过高:如果EPS beat的幅度小于过去平均水平,市场可能解读为增长放缓。 供应链成本风险:内存和光通信组件价格的上涨可能在下半年挤压毛利。 主权AI转向自研:部分主权云客户开始尝试自研网络架构,可能减少对商用交换机的依赖。 综合各项指标,Arista Networks在AI基础设施竞赛中依然处于“蓝海”地位。尽管英伟达在计算领域处于主导,但在连接数百万计算节点的网络层,Arista的软件沉淀和以太网工程能力目前尚无同量级的对手。对于超大规模客户而言,网络的稳定性(Lossless Performance)比单一硬件的原始速度更为重要,而这正是Arista EOS的核心竞争力。 短期内,微软和Meta的资本支出指引已经为Arista Q1的财报超预期打下了坚实的基础。考虑到历史业绩的极高连贯性以及当前分析师普遍的上修态度,财报大幅超预期几乎是大概率事件。然而,考虑到当前市盈率已处于近两年的高点,且部分利好已在过去一个月31.7%的涨幅中得到体现,财报后的涨幅将主要取决于管理层对2026年下半年甚至2027年1.6T产品的交付信心。 免责声明:本人持有文章中提及资产,观点充满偏见,非投资建议,dyor
显示更多