搜索 HBM 相关的推文、图片

2026.04.29 09:49

HBM卖光、NAND卖光，现在硬盘也卖光了，看希捷财报和电话会最直观的感受。也是当前AI驱动存储全链条供不应求的生动写照，几个要点： 1、近线HDD产能“几乎全卖光”： 管理层反复强调，近线容量已几乎全部预分配到27年，通过build-to-order（按订单生产）合同锁定主要云/超大规模客户。2026年产能基本卖完，2027财年合同也已敲定大部分。 2、需求“无法满足” CEO Dave Mosley直接指出，AI工作负载（推理、agentic AI、物理AI）放大数据创建，近线HDD需求远超供给。公司策略是靠面密度提升（HAMR/Mozaic技术）增加EB出货，而非扩充单位产能，因此供给偏紧，定价环境有利。近线产品占总EB出货接近90% 3、与HBM/NAND的平行： HBM因AI GPU全线倾斜而卖光 → NAND也因数据中心需求和产能错配大涨价卖光 → 现在轮到HDD（尤其是企业级/近线大容量盘）。希捷和西部数据都确认2026年HDD产能基本售罄，部分合同延至2027-2028。这形成完整的AI存储“卖光链”。核心逻辑还是AI正在经历从周期性训练到持续性推理的拐点。智能体AI（Agentic AI）和物理AI（如自动驾驶、机器人）正在生成前所未有的海量、非结构化、持久化数据。例如，单辆自动驾驶汽车每小时产生4TB数据。这种趋势使大容量硬盘（HDD）成为现代数据中心架构中不可或缺的mass data存储层。希捷进入AI驱动的结构性紧平衡——产能卖光、可见度极高、毛利率创纪录（47% non-GAAP）、长期增长目标上调至至少20%年化。这和美光/闪迪等在HBM/NAND上的卖光逻辑高度一致，整个存储板块都在享受同一波超级周期红利。

显示更多

qinbafrank@qinbafrank

2026.04.13 11:31

0

7

150

38

转发到社区

川沐｜Trumoo🐮@xiaomustock

2026.05.11 09:37

海力士考虑跟intc合作封装HBM。 $AMD 一季度13亿美金利润。市值7000多亿。 $MU 一季度137亿美金利润，市值7000多亿 $SK 一季度接近300亿美金利润，市值7000多亿 $NVDA 一季度300多亿美金利润，市值5万亿这么看就能知道即使涨到现在的海力士多便宜了吧。同样的利润水平，英伟达5万亿，海力士7000亿。不要被小作文动摇清仓，不会连商k姐都不如吧，人家都知道梭哈AI，你还在搞消费。

显示更多

0

20

419

52

转发到社区

八马数据@hua61488

2026.05.11 01:50

@xiaomustock AI现在最缺的就是HBM，所以存储板块🐮

0

1

0

转发到社区

Star@Day1Global Podcast@starzq

2026.04.29 12:54

@fi56622380 是否可以推导出，HBM 厂商进入"卖方市场"，Nvidia 未来最大的竞争对手不是 AMD，是 Samsung、SK Hynix、Micron？

0

1

6

0

转发到社区

川沐｜Trumoo🐮@xiaomustock

2026.04.22 14:55

谷歌的tpu在hbm存储用量上将增长6.8倍，当时谷歌还拿小作文跟三巨头谈判长约😂 目前算上三巨头的扩产产能也远远跟不上他们的规划需求增量。

显示更多

AI产业挖掘🐔@QihongF44102

2026.04.22 13:19

谷歌你是真秀，不是压缩6倍吗，不是不用存储了吗，怎么hbm容量还增长了6.8×？

0

10

103

10

转发到社区

rick awsb ($people, $people)@rickawsb

2026.05.04 19:16

Veeco：在GAA、HBM与CPO交汇点上的重要玩家如果把半导体产业链的终点是材料。Veeco就是一家材料公司。公司业务看起来分散：LSA、MOCVD、Ion Beam、Wet、Litho。但如果用一条主线去理解，其实很清晰——它做的是在原子尺度上控制材料。 Veeco当前收入约70%以上来自半导体相关业务，产品结构可以分为三层：第一层是LSA（Laser Annealing）和先进封装（Wet + Litho），贡献大部分收入；第二层是Ion Beam等高精度材料处理；第三层是MOCVD等化合物半导体设备，当前占比不高，但决定未来空间。 LSA本质是一个“热控制工具”。但在先进制程里，“热”已经不是普通变量，而是最核心约束之一。离子注入之后必须退火，这是所有晶体管都绕不开的步骤。传统路径是RTA或炉管，但问题在于，它们是“全局加热”，时间长、扩散大。节点进入7nm以下，这种扩散开始不可接受。 GAA把问题推到极限。沟道结构更精细、尺寸更小，任何多余的扩散都会直接影响器件性能。这时候，工艺需求发生了本质变化——不再是“加热”，而是“精确加热”。 LSA的价值就在这里：纳秒级、局部加热，几乎只作用在表层。 LSA的护城河不是设备本身，而是“工艺嵌入”。一旦进入产线，很难被替换。再看先进封装（Wet + Litho）。 HBM和Chiplet的爆发，把封装从辅助环节变成核心环节。工艺数量增加、步骤复杂度上升，对清洗、刻蚀、光刻的需求同步放大。 Veeco不是技术绝对领先，而是“高吞吐 + 低成本”的参与者。它已经进入TSMC、Samsung、Micron等客户体系，但这块的护城河明显弱于LSA。对手是Lam、TEL、Applied这些平台型公司。再看Ion Beam / ALD / PVD。 ALD和PVD是典型的大厂战场，Applied Materials、Lam、TEL拥有绝对优势。Veeco在这里几乎没有存在感。 Ion Beam是一个典型的niche技术：慢、贵，但精度极高。在某些场景下，比如MRAM、光子器件、MEMS，它几乎不可替代。这类业务的特点是：市场小，但稳定，毛利高，客户粘性强。最后看MOCVD。这是当前占比不高，但最值得关注的一块。 MOCVD用于生长GaAs、InP、GaN等材料，是光通信和功率器件的基础。随着CPO（共封装光学）推进，InP激光器的重要性在快速上升。问题不在于设备数量，而在于“良率 + 工艺 + 材料体系”。这一层很可能成为真正瓶颈。 Veeco和Aixtron是唯二的核心玩家。总的来说，Veeco很可能是一个“结构性机会”。它的当前收入由半导体驱动，但未来估值空间取决于两件事：第一，LSA是否进入更深的先进节点工艺；第二，MOCVD是否成为CPO时代的关键瓶颈。如果这两件事成立，这家公司会从一个“小众设备商”，变成“材料层定价权参与者”。免责声明：本人持有文章中提及资产，观点充满偏见，非投资建议dyor

显示更多

0

6

33

10

转发到社区

勃勃OC@bboczeng

2026.05.08 06:00

大型科技公司提议出资支持 SK 海力士芯片扩产，以应对 AI 芯片短缺 SK 海力士是 AI 数据中心高带宽内存（HBM）的主要供应商。由于 AI 需求导致供应紧张，该公司正收到大型科技公司提出的不同寻常的投资方案，包括为其韩国龙仁晶圆厂的专用生产线，以及价值数百万美元的 EUV 光刻设备提供资金支持。在创纪录的 AI 利润推动下，SK 海力士的产能已经被完全预订。公司正在谨慎评估这些交易，因为它们既可能锁定长期供应合同，也可能让公司过度绑定特定买家。三星和美光等竞争对手也面临类似洽谈。由于晶圆厂建设周期长达数年，供应短缺仍在持续，推动 SK 海力士股价今年上涨 154%，创下历史新高。

显示更多

0

8

17

1

转发到社区

fin@fi56622380

2026.04.29 04:38

AI半导体终局推演2026(I) 当新token经济学范式从GPU算力转移到HBM 本文从从GPU架构进化路线本质出发，解释这个市场长久以来担心的问题: 每个GPU的HBM内存需求为什么一定会是指数增长，为什么HBM需求指数增长不会停滞? 并推导token经济学在当前架构下第一性原理:token吞吐 = HBM size X HBM BW带宽同时讨论了，为什么GPU的天花板被HBM的两个发展维度所决定 HBM周期性这个话题争议一直很大，乐观派认为AI带来的需求比以前要大的多，但市场主流仍然认为前几次上升周期也有需求每年20%+增长，这次又有什么不一样呢？AI不影响HBM和传统DRAM一样有commodity属性，一旦在需求顶峰扩产遇上需求下行又会重蹈覆辙。我们可以从算力芯片架构视角,从第一性原理出发，来拆解和推演一下这个问题：为什么这次真的不一样 ------------------------------- 历史：CPU算力时代很久以来，我们都处在CPU主导算力的时代，CPU的最高级KPI就是performance，跑的更快，所以每一代的CPU都用各种方法来提高跑分，最开始是频率上升，后来是架构演进superscaler等等这个时候为什么DDR不需要很快的技术进步速度？比如DDR3到DDR5竟然经历了15年之久因为这个时期的DDR的角色是纯粹的辅助，而且辅助功能极弱，以业界经验，DDR的速度即便是提高一倍，CPU的performance一般只能提高不到20%这个量级为什么DDR带宽速度提高了用处不大？两个原因 1. CPU设计了各种架构去隐藏 DDR延迟，比如superscaler，加大发射宽度，用海量的ROB和register renaming来提高并行度隐藏延迟，一级缓存cache，二级缓存cache，削弱了DDR的带宽速度需求 2. CPU workload对DDR带宽要求并不高，大部分日常负载比如打开网页，DDR带宽是严重过剩的，甚至云端负载也就是说，在CPU时代，DDR的带宽速度是不太有所谓的，DDR4和DDR5除了少数游戏就没啥差别，甚至JEDEC标准也进步缓慢。另外，绝大部分app需要一直停留在DDR上的部分并不多,需要的时候从硬盘上调度到DDR即可，app的size增长没那么快，导致对DDR的容量需求也较为缓慢。所以最近十年来，平均每台电脑上的DDR容量大概从7~8GB变成了23GB，十年只增长了3倍。而这部分升级缓慢直接影响了营收，size容量计价是赚钱的主要方式，速度的提高只是技术升级，提高size的单价，这两个的升级需求都不大，需求主要是随着电脑/手机数量增长而增长所以DRAM在带宽速度和容量这两个维度上，一直是都是芯片产业锦上添花性质的附属品，DDR升级带来的边际效用是很低的，跟CPU时代的最高KPI几乎没什么直接联系 -------------------------------------------- 而到了genAI 大模型为主导的新时代，计算范式转移让最高级KPI起了根本变化 GPU发展到AI推理的时代，不再像CPU那样只看跑分，最高级的KPI不再是算力TOPS/FLOPS，而是token的成本，特别是单位成本/单位电力下的overall token throuput 其次是token吞吐速度，因为在agent时代，很多任务变成了串行，token吞吐速度成了用户体验的重要瓶颈。这也是为什么老黄发明AI工厂概念的原因：最低成本的输出最多token，同时尽量提高token吞吐速度 AI训练时代，老黄的经济学是TCO(total cost ownership)，买的GPU越多，省的越多而老黄在推理时代的token经济学是： AI推理的毛利润很可观，所以逻辑已经转换成：Nvidia GPU是这个世界上让token单价最便宜的GPU，买的GPU越多，赚的越多最高的KPI变成了Pareto frontier曲线，在提高token 吞吐throughput和提高token速度两个维度上尽量优化（见图一） NVIDIA 的 token factory 代际进步，其实是在把整条 Pareto frontier 往右上推，这就是是AI推理这个时代最重要的KPI ---------------------------------- 接下来是本文最重要的逻辑链，如何从token吞吐量指数型增长的本质出发，推导出天花板瓶颈在HBM size和HBM 带宽的指数型增长单卡GPU推理单线程batch size = 1的时代，token吞吐只有一个维度，就是HBM的带宽速度，带宽速度越高，token吞吐越大但进入NVL72的年代，推理不再是单卡GPU时代，而是72个GPU + 36个CPU整个系统级别的token工厂，把HBM带宽和算力用满，获得极致的token吞吐量 Token 吞吐throughput的增长，依赖两个东西：同时批处理的请求数 X 每个user请求的平均token速度也就是batch size X per user token 速度以Rubin NVL72为例，在平均token速度是100 token/s的情况下，同时批处理1920个请求，得到token吞吐量是19.2万token/s 一个Rubin NVL72大概是120KW（0.12MW）的功率，所以得到单位MW能处理1.6M token/s （见图一）所以，我们需要想方设法提高这两个参数：批处理数量batch size和per user token的平均速度，这两者相乘就是我们的最高KPI，也就是token的吞吐量 ------- 第一个参数：batch size的增长，瓶颈在HBM size 批处理量里的每一个请求req，都会自带kv cache，这部分kv cache是需要存在HBM里的，大小大概在几个GB到数十GB不等因为hot kv cache是随时需要高频高速读取，所以必须放在HBM里，比如一个大模型的层数是80层，那么每一个token的生成阶段，都需要读取80次HBM里的kv cache 随着批处理数量batch size的增长，会带来hot kv cache的线性增长又因为这个批处理量的所有请求的hot kv cache，都要放在HBM上，这也就带来了HBM size必须要随着批处理量batch size线性增长就像是机场接驳车，登机口尽量快的接旅客到飞机，HBM size小了，相当于接驳车size小了，就得多接一趟结论是：批处理量的数量batch size，瓶颈依赖于HBM size的增长 --------- 第二个参数：每个user请求的平均token速度，瓶颈在HBM带宽大模型decode阶段的速度，瓶颈取决于HBM的带宽速度，因为每生成一个 token,都要把激活的权重和kv cache 读很多遍 LPU的出现，在batch不那么大的情况下，把激活权重这个部分搬到了SRAM上，但是每生成一个 token仍然要从HBM读很多次KV cache。HBM带宽越高，生成每一个token的速度也就越快，基本上是线性对应的就像是机场接驳车，登机口尽量快的接旅客到飞机，hbm本身带宽速度就像是接驳车的车门有多宽，门越宽，旅客上接驳车越快 GPU的其他配置，都是在适配batch的增长以及要让token compute的速度配平HBM的增长，甚至会用多余的算力来获得部分的带宽（比如部分带宽压缩技术） —----- 在那个接驳车的比喻例子里接驳车的车厢大小 = HBM Size（容量）：决定了一次能装下多少名旅客（也就是能同时装下多少个请求的 KV Cache）。车厢越大，一次能拉载的旅客（Batch Size）就越多。如果车太小，想拉100个人就得分两趟，系统整体的吞吐量就上不去。接驳车的车门宽度 = HBM Bandwidth（带宽）：决定了旅客上下车的速度。门越宽，大家呼啦啦一下全上去了（Decode/生成Token的速度极快）。如果门很窄，哪怕车厢巨大能装200人，大家也得排着队一个一个挤上去，全耗在上下车的时间里了。旅客的吞吐量 = 接驳车车厢容量 x 接驳车旅客上车速度(车门宽度) —--------------------------- 至此，我们从逻辑上推演出了token经济学的硬件需求第一性原理： Token throughput = HBM size X HBM Bandwidth AI推理这个时代的最高KPI，实际上是高度依赖于HBM的两个维度的进步的如果要维持token throuput每一代两倍的增长，实际上意味着，每一代的单GPU上，HBM size X HBM BW带宽之积要增长两倍！这也是历史上第一次，HBM内存的size可以影响最高的KPI token throughput！要验证这个理论，可以把Nvidia从A100到Rubin Ultra这几代的token 吞吐throughput，和HBM size X HBM BW 放在同一个图里比较（见图二）可以发现，这两个曲线的走势在对数轴上惊人的一致 HBM size x HBM带宽增长的甚至要比token吞吐量更快，毕竟HBM决定的是天花板，实际上这个天花板增长的利用率utilization是很难达到100%的，也就是说，HBM size x HBM 带宽就算增长1000倍，其他算力和架构的配合下，很难把这1000倍的天花板潜力全部榨干这条曲线不是巧合，而是系统最优化的必然解 throughput = batch × Bandwidth，这就是token factory 经济学最绕不开的第一性原理 —-------- 软件的影响呢？软件的优化会不会降低带宽的需求？降低HBM的需求？这跟硬件是独立两个维度的，这好像在问，如果CPU上的软件优化了之后跑的更快，是不是CPU就十年不用发展了？反正软件跑的更快了嘛这样的话，CPU厂还能赚得到钱吗？CPU想要存活下去，只有一条路可走，在标准benchmark，不考虑软件优化，每一代CPU必须要跑分更高，不然就卖不出去 GPU也是一样，软件优化如何，和自己的token吞吐量KPI每年都要大幅进步，是两回事只要token的需求继续增长，对token throuput的追求就绝不会停止，那么对HBM size X HBM 带宽的追求也不会停止如果HBM size和HBM 带宽发展慢了，老黄一定会亲自到御三家逼着他们技术升级，因为这就是老黄gpu的天花板，天花板要是钉死了不进步，老黄的GPU还能卖出去吗？当然了，Nvidia需要绞尽脑汁去从异构计算的架构角度榨取HBM天花板之外的部分，比如LPU就是一个很好的尝试，把Pareto frontier从另一个角度改善了很多（右半边高token速度的部分） —-------------------------------------- HBM内存已然告别了那个随波逐流的旧时代，在这条由指数级需求铺就的单行道上，以一种近乎宿命的方式走到了产业史诗的主舞台中央推理范式第一性原理演化到这一步，只要老黄还要卖GPU，HBM就必须翻倍，而且必须代代翻倍。这是supply side的内生压力，与AI需求无关，与宏观周期无关，与hyperscaler的心情也无关剩下的问题，只有一个：当需求被物理锁定为指数增长的时候，供给侧的三个玩家，会不会还像过去三十年那样，亲手把自己再拖回一次周期的泥潭？

显示更多

0

54

910

275

转发到社区

AI产业挖掘🐔@QihongF44102

2026.04.22 13:19

谷歌你是真秀，不是压缩6倍吗，不是不用存储了吗，怎么hbm容量还增长了6.8×？

0

3

73

10

转发到社区

川沐｜Trumoo🐮@xiaomustock

2026.03.06 11:40

针对英伟达（NVIDIA）即将发布的 Feynman（费曼）架构，整理了关于三种记忆体SRAM，HBM5，HBF在费曼架构中的协作关系。很多人被这种眼花撩乱的记忆体搞懵了，我来给你们缕顺它们。一、 3D SRAM：纳秒级“热记忆”突触（计算核心的物理延伸）核心功能：消除访存延迟：提供 < 1ns 的响应，存储单周期内的**瞬时激活值（Activations）**与指令碎片。高速缓冲池：作为 HBM5 与 Tensor Core 之间的桥梁，通过 SoIC（混合键合）直接堆叠在 GPU 核心上方，确保计算单元零空转。技术规格：带宽/容量：片上带宽 > 150 TB/s，单片容量 1.5 GB - 3 GB。工艺：采用 2nm / 3nm 工艺，由台积电（TSMC）主导 SoIC 堆叠。厂商格局：海力士与美光聚焦高密度 6T SRAM 单元以优化热功耗；三星则利用 IDM 优势自研定制化 SRAM 晶圆。二、 HBM5：费曼架构的“温记忆”主干（存内计算与 3D 键合巅峰）核心功能：模型全集载体：存储全量权重（Weights）与活跃 KV 缓存。存内计算 (PIM)：底层 Base Die 由英伟达定制，支持在存储端直接进行向量加法等预处理，释放 GPU 算力。技术规格：性能：单芯片带宽 15 - 20 TB/s，单卡容量可达 1 TB。互联：全面转向 Hybrid Bonding（混合键合），支持 20-24 层堆叠。厂商路径： SK 海力士：依靠 Advanced MR-MUF 向混合键合平滑过渡。三星：路线最激进，主导 16 层以上全混合键合。美光：主攻低功耗控制（低 pJ/bit）。闪迪/西数：通过 CBA 技术积累提供高速逻辑层 IP。三、 HBF (High Bandwidth Flash)：智能体“冷记忆”仓库（长上下文存储的终极方案）核心功能： ICMS 平台核心：专门存储非活跃 KV 缓存，解决 AI Agent 数月跨度的对话记忆。冷热置换：通过 CXL 3.1 协议实现与 HBM5 的数据无损迁徙。技术规格：性能：读取速率达 1.6 - 2 TB/s（接近 HBM），容量高达 8 TB - 16 TB。耐久度：内置硬件磨损均衡引擎，寿命达普通 NAND 的 5 倍。厂商路径：闪迪/西数：领军者，将 HBF 控制器直接键合在 BiCS NAND 下方。 SK 海力士：开发 HBF-NAND 堆栈，力求外形尺寸与 HBM 统一。三星：推出低延迟 Z-NAND 混合体，缩小与 DRAM 的性能鸿沟。四、协作关系总结：AI Agent 任务流在英伟达费曼（Feynman）架构的 AI Agent 任务流中，三者构建了从“神经反射”到“深度思考”的记忆闭环：3D SRAM 以 < 1ns 的延迟在芯片内实时处理瞬时激活值与指令，确保计算核心零停顿；HBM5 作为封装内的动力心脏，通过 \sim 5 TB/s 的带宽承载全量模型权重与活跃 KV 缓存，维持推理逻辑的连贯性；而 HBF 则作为系统级的长期记忆库，利用 8-16 TB 的海量空间存储非活跃上下文，通过 CXL 3.1 协议与 HBM5 实现数据的冷热置换，共同支撑起智能体跨越时空的复杂任务处理能力。

显示更多

0

17

189

36

转发到社区