注册并分享邀请链接,可获得视频播放与邀请奖励。

搜索结果 HBM
HBM 贴吧
一个关键词就是一个贴吧,路径全站唯一。
创建贴吧
用户
未找到
包含 HBM 的推特
HBM卖光、NAND卖光,现在硬盘也卖光了,看希捷财报和电话会最直观的感受。也是当前AI驱动存储全链条供不应求的生动写照,几个要点: 1、近线HDD产能“几乎全卖光”:
管理层反复强调,近线容量已几乎全部预分配到27年,通过build-to-order(按订单生产)合同锁定主要云/超大规模客户。2026年产能基本卖完,2027财年合同也已敲定大部分。 2、需求“无法满足”
CEO Dave Mosley直接指出,AI工作负载(推理、agentic AI、物理AI)放大数据创建,近线HDD需求远超供给。公司策略是靠面密度提升(HAMR/Mozaic技术)增加EB出货,而非扩充单位产能,因此供给偏紧,定价环境有利。近线产品占总EB出货接近90% 3、与HBM/NAND的平行:
HBM因AI GPU全线倾斜而卖光 → NAND也因数据中心需求和产能错配大涨价卖光 → 现在轮到HDD(尤其是企业级/近线大容量盘)。希捷和西部数据都确认2026年HDD产能基本售罄,部分合同延至2027-2028。这形成完整的AI存储“卖光链”。 核心逻辑还是AI正在经历从周期性训练到持续性推理的拐点。智能体AI(Agentic AI)和物理AI(如自动驾驶、机器人)正在生成前所未有的海量、非结构化、持久化数据。例如,单辆自动驾驶汽车每小时产生4TB数据。这种趋势使大容量硬盘(HDD)成为现代数据中心架构中不可或缺的mass data存储层。 希捷进入AI驱动的结构性紧平衡——产能卖光、可见度极高、毛利率创纪录(47% non-GAAP)、长期增长目标上调至至少20%年化。这和美光/闪迪等在HBM/NAND上的卖光逻辑高度一致,整个存储板块都在享受同一波超级周期红利。
显示更多
0
7
150
38
转发到社区
海力士考虑跟intc合作封装HBM。 $AMD 一季度13亿美金利润。市值7000多亿。 $MU 一季度137亿美金利润,市值7000多亿 $SK 一季度接近300亿美金利润,市值7000多亿 $NVDA 一季度300多亿美金利润,市值5万亿 这么看就能知道即使涨到现在的海力士多便宜了吧。 同样的利润水平,英伟达5万亿,海力士7000亿。 不要被小作文动摇清仓,不会连商k姐都不如吧,人家都知道梭哈AI,你还在搞消费。
显示更多
0
20
419
52
转发到社区
@xiaomustock AI现在最缺的就是HBM,所以存储板块🐮
@fi56622380 是否可以推导出,HBM 厂商进入"卖方市场",Nvidia 未来最大的竞争对手不是 AMD,是 Samsung、SK Hynix、Micron?
谷歌的tpu在hbm存储用量上将增长6.8倍,当时谷歌还拿小作文跟三巨头谈判长约😂 目前算上三巨头的扩产产能也远远跟不上他们的规划需求增量。
显示更多
谷歌你是真秀,不是压缩6倍吗,不是不用存储了吗,怎么hbm容量还增长了6.8×?
0
10
103
10
转发到社区
Veeco:在GAA、HBM与CPO交汇点上的重要玩家 如果把半导体产业链的终点是材料。Veeco就是一家材料公司。 公司业务看起来分散:LSA、MOCVD、Ion Beam、Wet、Litho。但如果用一条主线去理解,其实很清晰——它做的是在原子尺度上控制材料。 Veeco当前收入约70%以上来自半导体相关业务,产品结构可以分为三层: 第一层是LSA(Laser Annealing)和先进封装(Wet + Litho),贡献大部分收入; 第二层是Ion Beam等高精度材料处理; 第三层是MOCVD等化合物半导体设备,当前占比不高,但决定未来空间。 LSA本质是一个“热控制工具”。但在先进制程里,“热”已经不是普通变量,而是最核心约束之一。 离子注入之后必须退火,这是所有晶体管都绕不开的步骤。传统路径是RTA或炉管,但问题在于,它们是“全局加热”,时间长、扩散大。节点进入7nm以下,这种扩散开始不可接受。 GAA把问题推到极限。沟道结构更精细、尺寸更小,任何多余的扩散都会直接影响器件性能。这时候,工艺需求发生了本质变化——不再是“加热”,而是“精确加热”。 LSA的价值就在这里:纳秒级、局部加热,几乎只作用在表层。 LSA的护城河不是设备本身,而是“工艺嵌入”。一旦进入产线,很难被替换。 再看先进封装(Wet + Litho)。 HBM和Chiplet的爆发,把封装从辅助环节变成核心环节。工艺数量增加、步骤复杂度上升,对清洗、刻蚀、光刻的需求同步放大。 Veeco不是技术绝对领先,而是“高吞吐 + 低成本”的参与者。 它已经进入TSMC、Samsung、Micron等客户体系,但这块的护城河明显弱于LSA。对手是Lam、TEL、Applied这些平台型公司。 再看Ion Beam / ALD / PVD。 ALD和PVD是典型的大厂战场,Applied Materials、Lam、TEL拥有绝对优势。Veeco在这里几乎没有存在感。 Ion Beam是一个典型的niche技术:慢、贵,但精度极高。在某些场景下,比如MRAM、光子器件、MEMS,它几乎不可替代。 这类业务的特点是:市场小,但稳定,毛利高,客户粘性强。 最后看MOCVD。 这是当前占比不高,但最值得关注的一块。 MOCVD用于生长GaAs、InP、GaN等材料,是光通信和功率器件的基础。随着CPO(共封装光学)推进,InP激光器的重要性在快速上升。 问题不在于设备数量,而在于“良率 + 工艺 + 材料体系”。这一层很可能成为真正瓶颈。 Veeco和Aixtron是唯二的核心玩家。 总的来说,Veeco很可能是一个“结构性机会”。 它的当前收入由半导体驱动,但未来估值空间取决于两件事: 第一,LSA是否进入更深的先进节点工艺; 第二,MOCVD是否成为CPO时代的关键瓶颈。 如果这两件事成立,这家公司会从一个“小众设备商”,变成“材料层定价权参与者”。 免责声明:本人持有文章中提及资产,观点充满偏见,非投资建议dyor
显示更多
0
6
33
10
转发到社区
大型科技公司提议出资支持 SK 海力士芯片扩产,以应对 AI 芯片短缺 SK 海力士是 AI 数据中心高带宽内存(HBM)的主要供应商。由于 AI 需求导致供应紧张,该公司正收到大型科技公司提出的不同寻常的投资方案,包括为其韩国龙仁晶圆厂的专用生产线,以及价值数百万美元的 EUV 光刻设备提供资金支持。 在创纪录的 AI 利润推动下,SK 海力士的产能已经被完全预订。公司正在谨慎评估这些交易,因为它们既可能锁定长期供应合同,也可能让公司过度绑定特定买家。 三星和美光等竞争对手也面临类似洽谈。由于晶圆厂建设周期长达数年,供应短缺仍在持续,推动 SK 海力士股价今年上涨 154%,创下历史新高。
显示更多
AI半导体终局推演2026(I) 当新token经济学范式从GPU算力转移到HBM 本文从从GPU架构进化路线本质出发,解释这个市场长久以来担心的问题: 每个GPU的HBM内存需求为什么一定会是指数增长,为什么HBM需求指数增长不会停滞? 并推导token经济学在当前架构下第一性原理:token吞吐 = HBM size X HBM BW带宽 同时讨论了,为什么GPU的天花板被HBM的两个发展维度所决定 HBM周期性这个话题争议一直很大,乐观派认为AI带来的需求比以前要大的多,但市场主流仍然认为前几次上升周期也有需求每年20%+增长,这次又有什么不一样呢?AI不影响HBM和传统DRAM一样有commodity属性,一旦在需求顶峰扩产遇上需求下行又会重蹈覆辙。 我们可以从算力芯片架构视角,从第一性原理出发,来拆解和推演一下这个问题:为什么这次真的不一样 ------------------------------- 历史:CPU算力时代 很久以来,我们都处在CPU主导算力的时代,CPU的最高级KPI就是performance,跑的更快,所以每一代的CPU都用各种方法来提高跑分,最开始是频率上升,后来是架构演进superscaler等等 这个时候为什么DDR不需要很快的技术进步速度?比如DDR3到DDR5竟然经历了15年之久 因为这个时期的DDR的角色是纯粹的辅助,而且辅助功能极弱,以业界经验,DDR的速度即便是提高一倍,CPU的performance一般只能提高不到20%这个量级 为什么DDR带宽速度提高了用处不大?两个原因 1. CPU设计了各种架构去隐藏 DDR延迟,比如superscaler,加大发射宽度,用海量的ROB和register renaming来提高并行度隐藏延迟,一级缓存cache,二级缓存cache,削弱了DDR的带宽速度需求 2. CPU workload对DDR带宽要求并不高,大部分日常负载比如打开网页,DDR带宽是严重过剩的,甚至云端负载 也就是说,在CPU时代,DDR的带宽速度是不太有所谓的,DDR4和DDR5除了少数游戏就没啥差别,甚至JEDEC标准也进步缓慢。 另外,绝大部分app需要一直停留在DDR上的部分并不多,需要的时候从硬盘上调度到DDR即可,app的size增长没那么快,导致对DDR的容量需求也较为缓慢。 所以最近十年来,平均每台电脑上的DDR容量大概从7~8GB变成了23GB,十年只增长了3倍。 而这部分升级缓慢直接影响了营收,size容量计价是赚钱的主要方式,速度的提高只是技术升级,提高size的单价,这两个的升级需求都不大,需求主要是随着电脑/手机数量增长而增长 所以DRAM在带宽速度和容量这两个维度上,一直是都是芯片产业锦上添花性质的附属品,DDR升级带来的边际效用是很低的,跟CPU时代的最高KPI几乎没什么直接联系 -------------------------------------------- 而到了genAI 大模型为主导的新时代,计算范式转移让最高级KPI起了根本变化 GPU发展到AI推理的时代,不再像CPU那样只看跑分,最高级的KPI不再是算力TOPS/FLOPS,而是token的成本,特别是单位成本/单位电力下的overall token throuput 其次是token吞吐速度,因为在agent时代,很多任务变成了串行,token吞吐速度成了用户体验的重要瓶颈。 这也是为什么老黄发明AI工厂概念的原因:最低成本的输出最多token,同时尽量提高token吞吐速度 AI训练时代,老黄的经济学是TCO(total cost ownership),买的GPU越多,省的越多 而老黄在推理时代的token经济学是: AI推理的毛利润很可观,所以逻辑已经转换成:Nvidia GPU是这个世界上让token单价最便宜的GPU,买的GPU越多,赚的越多 最高的KPI变成了Pareto frontier曲线,在提高token 吞吐throughput和提高token速度两个维度上尽量优化 (见图一) NVIDIA 的 token factory 代际进步,其实是在把整条 Pareto frontier 往右上推,这就是是AI推理这个时代最重要的KPI ---------------------------------- 接下来是本文最重要的逻辑链,如何从token吞吐量指数型增长的本质出发,推导出天花板瓶颈在HBM size和HBM 带宽的指数型增长 单卡GPU推理单线程batch size = 1的时代,token吞吐只有一个维度,就是HBM的带宽速度,带宽速度越高,token吞吐越大 但进入NVL72的年代,推理不再是单卡GPU时代,而是72个GPU + 36个CPU整个系统级别的token工厂,把HBM带宽和算力用满,获得极致的token吞吐量 Token 吞吐throughput的增长,依赖两个东西:同时批处理的请求数 X 每个user请求的平均token速度 也就是batch size X per user token 速度 以Rubin NVL72为例,在平均token速度是100 token/s的情况下,同时批处理1920个请求,得到token吞吐量是19.2万token/s 一个Rubin NVL72大概是120KW(0.12MW)的功率,所以得到单位MW能处理1.6M token/s (见图一) 所以,我们需要想方设法提高这两个参数:批处理数量batch size和per user token的平均速度,这两者相乘就是我们的最高KPI,也就是token的吞吐量 ------- 第一个参数:batch size的增长,瓶颈在HBM size 批处理量里的每一个请求req,都会自带kv cache,这部分kv cache是需要存在HBM里的,大小大概在几个GB到数十GB不等 因为hot kv cache是随时需要高频高速读取,所以必须放在HBM里,比如一个大模型的层数是80层,那么每一个token的生成阶段,都需要读取80次HBM里的kv cache 随着批处理数量batch size的增长,会带来hot kv cache的线性增长 又因为这个批处理量的所有请求的hot kv cache,都要放在HBM上,这也就带来了HBM size必须要随着批处理量batch size线性增长 就像是机场接驳车,登机口尽量快的接旅客到飞机,HBM size小了,相当于接驳车size小了,就得多接一趟 结论是:批处理量的数量batch size,瓶颈依赖于HBM size的增长 --------- 第二个参数:每个user请求的平均token速度,瓶颈在HBM带宽 大模型decode阶段的速度,瓶颈取决于HBM的带宽速度,因为每生成一个 token,都要把激活的权重和kv cache 读很多遍 LPU的出现,在batch不那么大的情况下,把激活权重这个部分搬到了SRAM上,但是每生成一个 token仍然要从HBM读很多次KV cache。HBM带宽越高,生成每一个token的速度也就越快,基本上是线性对应的 就像是机场接驳车,登机口尽量快的接旅客到飞机,hbm本身带宽速度就像是接驳车的车门有多宽,门越宽,旅客上接驳车越快 GPU的其他配置,都是在适配batch的增长以及要让token compute的速度配平HBM的增长,甚至会用多余的算力来获得部分的带宽(比如部分带宽压缩技术) —----- 在那个接驳车的比喻例子里 接驳车的车厢大小 = HBM Size(容量): 决定了一次能装下多少名旅客(也就是能同时装下多少个请求的 KV Cache)。车厢越大,一次能拉载的旅客(Batch Size)就越多。如果车太小,想拉100个人就得分两趟,系统整体的吞吐量就上不去。 接驳车的车门宽度 = HBM Bandwidth(带宽): 决定了旅客上下车的速度。门越宽,大家呼啦啦一下全上去了(Decode/生成Token的速度极快)。如果门很窄,哪怕车厢巨大能装200人,大家也得排着队一个一个挤上去,全耗在上下车的时间里了。 旅客的吞吐量 = 接驳车车厢容量 x 接驳车旅客上车速度(车门宽度) —--------------------------- 至此,我们从逻辑上推演出了token经济学的硬件需求第一性原理: Token throughput = HBM size X HBM Bandwidth AI推理这个时代的最高KPI,实际上是高度依赖于HBM的两个维度的进步的 如果要维持token throuput每一代两倍的增长,实际上意味着,每一代的单GPU上,HBM size X HBM BW带宽之积要增长两倍! 这也是历史上第一次,HBM内存的size可以影响最高的KPI token throughput! 要验证这个理论,可以把Nvidia从A100到Rubin Ultra这几代的token 吞吐throughput,和HBM size X HBM BW 放在同一个图里比较 (见图二) 可以发现,这两个曲线的走势在对数轴上惊人的一致 HBM size x HBM带宽增长的甚至要比token吞吐量更快,毕竟HBM决定的是天花板,实际上这个天花板增长的利用率utilization是很难达到100%的,也就是说,HBM size x HBM 带宽就算增长1000倍,其他算力和架构的配合下,很难把这1000倍的天花板潜力全部榨干 这条曲线不是巧合,而是系统最优化的必然解 throughput = batch × Bandwidth,这就是token factory 经济学最绕不开的第一性原理 —-------- 软件的影响呢?软件的优化会不会降低带宽的需求?降低HBM的需求? 这跟硬件是独立两个维度的,这好像在问,如果CPU上的软件优化了之后跑的更快,是不是CPU就十年不用发展了?反正软件跑的更快了嘛 这样的话,CPU厂还能赚得到钱吗?CPU想要存活下去,只有一条路可走,在标准benchmark,不考虑软件优化,每一代CPU必须要跑分更高,不然就卖不出去 GPU也是一样,软件优化如何,和自己的token吞吐量KPI每年都要大幅进步,是两回事 只要token的需求继续增长,对token throuput的追求就绝不会停止,那么对HBM size X HBM 带宽的追求也不会停止 如果HBM size和HBM 带宽发展慢了,老黄一定会亲自到御三家逼着他们技术升级,因为这就是老黄gpu的天花板,天花板要是钉死了不进步,老黄的GPU还能卖出去吗? 当然了,Nvidia需要绞尽脑汁去从异构计算的架构角度榨取HBM天花板之外的部分,比如LPU就是一个很好的尝试,把Pareto frontier从另一个角度改善了很多 (右半边高token速度的部分) —-------------------------------------- HBM内存已然告别了那个随波逐流的旧时代,在这条由指数级需求铺就的单行道上,以一种近乎宿命的方式走到了产业史诗的主舞台中央 推理范式第一性原理演化到这一步,只要老黄还要卖GPU,HBM就必须翻倍,而且必须代代翻倍。这是supply side的内生压力,与AI需求无关,与宏观周期无关,与hyperscaler的心情也无关 剩下的问题,只有一个: 当需求被物理锁定为指数增长的时候,供给侧的三个玩家,会不会还像过去三十年那样,亲手把自己再拖回一次周期的泥潭?
显示更多
0
54
910
275
转发到社区
谷歌你是真秀,不是压缩6倍吗,不是不用存储了吗,怎么hbm容量还增长了6.8×?
0
3
73
10
转发到社区
针对英伟达(NVIDIA)即将发布的 Feynman(费曼) 架构,整理了关于三种记忆体SRAM,HBM5,HBF在费曼架构中的协作关系。很多人被这种眼花撩乱的记忆体搞懵了,我来给你们缕顺它们。 一、 3D SRAM:纳秒级“热记忆”突触 (计算核心的物理延伸) 核心功能: 消除访存延迟:提供 < 1ns 的响应,存储单周期内的**瞬时激活值(Activations)**与指令碎片。 高速缓冲池:作为 HBM5 与 Tensor Core 之间的桥梁,通过 SoIC(混合键合) 直接堆叠在 GPU 核心上方,确保计算单元零空转。 技术规格: 带宽/容量:片上带宽 > 150 TB/s,单片容量 1.5 GB - 3 GB。 工艺:采用 2nm / 3nm 工艺,由台积电(TSMC)主导 SoIC 堆叠。 厂商格局:海力士与美光聚焦高密度 6T SRAM 单元以优化热功耗;三星则利用 IDM 优势自研定制化 SRAM 晶圆。 二、 HBM5:费曼架构的“温记忆”主干 (存内计算与 3D 键合巅峰) 核心功能: 模型全集载体:存储 全量权重(Weights) 与 活跃 KV 缓存。 存内计算 (PIM):底层 Base Die 由英伟达定制,支持在存储端直接进行向量加法等预处理,释放 GPU 算力。 技术规格: 性能:单芯片带宽 15 - 20 TB/s,单卡容量可达 1 TB。 互联:全面转向 Hybrid Bonding(混合键合),支持 20-24 层 堆叠。 厂商路径: SK 海力士:依靠 Advanced MR-MUF 向混合键合平滑过渡。 三星:路线最激进,主导 16 层以上全混合键合。 美光:主攻低功耗控制(低 pJ/bit)。 闪迪/西数:通过 CBA 技术 积累提供高速逻辑层 IP。 三、 HBF (High Bandwidth Flash):智能体“冷记忆”仓库 (长上下文存储的终极方案) 核心功能: ICMS 平台核心:专门存储 非活跃 KV 缓存,解决 AI Agent 数月跨度的对话记忆。 冷热置换:通过 CXL 3.1 协议实现与 HBM5 的数据无损迁徙。 技术规格: 性能:读取速率达 1.6 - 2 TB/s(接近 HBM),容量高达 8 TB - 16 TB。 耐久度:内置硬件磨损均衡引擎,寿命达普通 NAND 的 5 倍。 厂商路径: 闪迪/西数:领军者,将 HBF 控制器直接键合在 BiCS NAND 下方。 SK 海力士:开发 HBF-NAND 堆栈,力求外形尺寸与 HBM 统一。 三星:推出低延迟 Z-NAND 混合体,缩小与 DRAM 的性能鸿沟。 四、 协作关系总结:AI Agent 任务流 在英伟达费曼(Feynman)架构的 AI Agent 任务流中,三者构建了从“神经反射”到“深度思考”的记忆闭环:3D SRAM 以 < 1ns 的延迟在芯片内实时处理瞬时激活值与指令,确保计算核心零停顿;HBM5 作为封装内的动力心脏,通过 \sim 5 TB/s 的带宽承载全量模型权重与活跃 KV 缓存,维持推理逻辑的连贯性;而 HBF 则作为系统级的长期记忆库,利用 8-16 TB 的海量空间存储非活跃上下文,通过 CXL 3.1 协议与 HBM5 实现数据的冷热置换,共同支撑起智能体跨越时空的复杂任务处理能力。
显示更多
0
17
189
36
转发到社区