注册并分享邀请链接,可获得视频播放与邀请奖励。

搜索结果 tbs
tbs 贴吧
一个关键词就是一个贴吧,路径全站唯一。
创建贴吧
用户
未找到
包含 tbs 的推特
光线变得锋利,空气开始松弛。 季节没有宣告,只是悄悄越界。 等你意识到的时候,夏天已经占据了一切
0
4
712
16
转发到社区
一个性感女教师让自慰成瘾的优等生感受到高潮的故事 投稿 ‣‣‣ @RLWJ_kuking @JWCJ_kuxs @JQDZ_Charm @JLSQ_kuxs #日理万姬#
0
63
12.9K
2.3K
转发到社区
这几个PDF 工具真的好。功能全面,最关键是免费、无需下载:签名、合并、分割、格式转换、旋转、提取....能够解决工作中99%的问题。 翻译:
显示更多
基于未来是视频时代不是文本时代, 先说结论:闪迪和海力士研究的HBF会成为未来AI领域主导的存储方案。 1.闪迪的 Optimus HBF Gen1分析; 单堆栈容量: 起步 512GB(未来可达数 TB),是当前 HBM 容量的 10 倍以上。 带宽水平: 目标带宽超过 1.6 TB/s,虽然延迟略高于 HBM,但读速度已极度接近。 物理结构: 采用 16 层以上的高速 NAND 堆叠,支持通过 TSV(穿硅通孔)技术直接与 GPU/NPU 互联。 成本优势:HBF 的单位成本仅为 HBM 的几分之一。 2. 视频 AI 场景下的优劣分析; HBM 的优势:实时生成与扩散模型的“加速器” 优势: 视频 AI(如 Sora、Runway、SeenDance 2)在生成每一帧时,需要进行海量的矩阵运算和参数读取。HBM 的低延迟确保了显存与 GPU 核心之间的数据交换没有“毫秒级”卡顿。 劣势: 容量焦虑。目前顶级 HBM(如 H200)也就 141GB,这导致长视频生成或 4K 高质量视频训练时,显存经常爆掉(OOM),必须通过昂贵的集群来拆分任务。 HBF 的优势:打破“视频素材墙”的“大水管” 优势: 视频数据极其庞大。HBF 允许 AI 模型直接在存储层进行“近内存计算”。 超长视频生成: 当 HBM 装不下权重模型时,HBF 充当“二级显存”,其高带宽保证了模型参数加载到 GPU 的过程不需要像普通 SSD 那样等待。 视频特征检索(RAG): 在处理海量视频素材库时,HBF 能以超高速扫描 TB 级数据,寻找匹配的素材特征,这是传统存储无法想象的。 劣势: 虽然带宽上去了,但 寻址延迟 依然高于 HBM。对于需要极高实时性反馈的 AI 交互场景,HBF 会有微小的滞后。 3. 视频 AI 场景下的“成本帐” 假设你要搭建一个能够实时生成 10 分钟 4K 视频的 AI 工作站: 全 HBM 方案: 你需要部署多块 H200/B200 显卡,仅显存成本可能就超过 5 万美元,且依然可能因为显存容量限制(141GB 封顶)无法处理超长上下文。 HBM + HBF 混合方案: 你只需要少量 HBM 负责核心运算,配合 4TB 的 HBF 存储 作为“大显存池”。总成本可能降至 1.5 万美元 左右,且能处理比前者多出 30 倍 的视频素材量。 根据以上我们可以很直观的判断出, 未来AI存储发展方向至少会演化成少量的HBM负责核心计算,搭配海量的HBF存储芯片。 那么现阶段谁最先掌握了的HBF全栈技术, 谁就能在接下来的视频AI浪潮中获取海量的利润! 毫无疑问现在西部数据wdc的彻底退出, 相当于给闪迪的估值模型松绑, 是闪迪真正走向堪比英伟达一样巨头的起点。
显示更多
存储需求恐怕又要因为seedance2的出现指数级暴增. gpt3.5带来了文本时代,真正的视频时代,是seedance2带来的. 同样是几个提示词,视频ai消耗的存储将达到几百m,随着ai视频制作时长的增加这个体积还会更大. 这次衍生的存储需求会是原来文本的很多倍. 毕竟现在刷视频成瘾的群体是真多, 全球范围内从婴幼儿到老头老太太谁都逃不过,他们可能不爱看书不爱看新闻但绝对爱刷短视频. 基于此,又会产生新的投资需求. 视频ai需要的存储类型跟文本ai肯定有差异. gemini给出的现阶段抖音与yputobe采用的存储架构实录. 目前的视频存储并非单一介质,而是复杂的多级冷热分层架构 (Tiered Storage Architecture)。 A. 架构组成 1. 极热层 (Ultra-Hot Tier):用于应对瞬时爆发的流量(如顶流网红刚发布的视频)。 • 类型:NVMe SSD 集群 + 内存级缓存(Redis/Memcached)。 • 核心指标:**IOPS(每秒输入输出操作数)**和极低的延迟。 2. 热/温层 (Warm Tier):用于存放日常活跃观看的视频。 • 类型:高性能企业级机械硬盘 (HDD) 或大容量 QLC SSD。 • 核心指标:吞吐量 (Throughput) 与成本的平衡。 3. 冷层 (Cold/Archive Tier):用于存放数年前、几乎无人问津的长尾视频。 • 类型:高密度氦气硬盘 (HDD) 甚至物理隔离的磁带机。 • 核心指标:每 TB 持有成本 (TCO)。 B. 痛点:I/O 墙与存储孤岛 传统架构下,存储是“静态”的。但 AI 视频时代(SeenDance 2)要求存储从“仓库”变成“流水线”,这直接导致了存储逻辑的崩溃。 根据以上视频公司存储的现状与困境可以延伸出其三个未来发展方向. 视频 AI 存储的三个未来发展方向 1.方向一:从 HDD 到全闪存化 (All-Flash Data Center) AI 视频训练需要并行读取海量高清素材。传统 HDD 的寻道时间太慢,会拖累昂贵的 GPU 算力。全闪存阵列 (AFA) 将从“奢侈品”变成视频公司的“基础设施”。 2.方向二:CXL 技术下的“内存-存储”融合 Compute Express Link (CXL) 协议将打破内存和 SSD 的界限。对于 SeenDance 2 这种需要处理实时动作对齐的模型,数据在 SSD 和 HBM 之间的搬运速度决定了生成的流畅度。 3.方向三:近存计算 (Computational Storage) 与其把巨大的视频数据搬到 CPU 处理,不如直接在存储主控芯片上进行初步的数据预处理(如视频抽帧、格式转换). 基于以上及图片参数对存储公司作核心竞争力与趋势分析排序评级. SK海力士(S级): 凭借 Solidigm 的 QLC 容量优势和 HBM 的统治地位,卡死了“大容量读取”和“算力吞吐”两个核心环节。视频 AI 训练集的 EB 级存储首选。 三星Samsung (A+级): 读写最均衡。其 PCIe 5.0 写入速度冠绝群雄,是 SeenDance 2 生成 4K/8K 视频流时最佳的“高速缓冲区”。 闪迪SanDisk (A级): 独立后的黑马。其 HBF(高带宽闪存) 旨在打破内存墙,让 SSD 直接参与 AI 推理,极大利好 64G 内存(如你的 M4 Pro)在本地处理大模型视频生成。 美光Micron (A级): 写入寿命与能效比极高,适合 24/7 不间断生成视频的云工厂。 • WDC (B+级): 专注于 CXL 协议,解决数据中心内内存与存储的动态调配问题。
显示更多
0
24
174
35
转发到社区
$CBRS 假设 Cerebras 跟 CPO 结合起来,能否成为一台为极致推理而生的性能巨兽? Cerebras WSE-3 的片上 SRAM 带宽是 21 PB/s,这个数字只对已经在片上的数据有效。一旦模型大到装不进单台 CS-3 的 44GB SRAM,就需要多台 CS-3 协同,activation 在机器之间流动。这段片间互联走的是 SwarmX 以太网 fabric,12 条 100GbE 链路,总带宽约 150 GB/s,跟片上 21 PB/s 差了超过十万倍。这是 Cerebras 部署 frontier model 时性能出现断崖的根本原因,也是 OpenAI 选择蒸馏小模型而不用 weight streaming 跑完整 GPT-5.3 的底层逻辑。 如果把 CPO引入 CS 系统,把光引擎直接封装到 WSE 的 package 上,片间互联带宽有望从现在的 150 GB/s 跳到几十 TB/s,提升两个数量级。电信号不用走长距离 PCB trace 再到外挂光模块,直接在芯片旁边完成电光转换,延迟更低,功耗更低,信号完整性更好。 跑一个万亿参数模型可能需要 20 到 30 台 CS 系统,权重全部常驻在各台机器的片上 SRAM 里不动,activation 通过 CPO 在机器之间高速流动。每台 CS 内部是 21 PB/s 的片上带宽处理几十层计算,跨机传一个几 MB 的 activation tensor 在几十 TB/s 的 CPO 下只需要亚微秒级延迟,基本可以被藏在计算延迟后面。系统的有效带宽会非常接近"全部在片上"的体验。 这种配置下 Cerebras 对 GPU 方案的带宽优势是碾压级的,NVIDIA 再怎么升级 HBM 也追不上 SRAM + CPO 的组合。对比 NVIDIA 刚收购的 Groq 多芯片方案也有数量级优势,Cerebras 每个节点是 44GB、21 PB/s 的整片晶圆,Groq 每个节点只有 500MB、150 TB/s 的标准芯片,跨节点通信频率差两个数量级。 工程难度非常大。在一整片 300mm 晶圆上集成 CPO 跟在常规芯片上做完全不同。光引擎的物理位置(晶圆没有传统意义上的 package 边缘)、WSE 本身 23kW 功耗旁边怎么保持激光器的温度稳定、CPO 光通道的良率怎么管理(WSE 的 compute core 可以靠冗余核补偿缺陷,光通道没有这个机制),每一个都是全新的封装工程问题。 这条路如果走通了,Cerebras 的 wafer-scale 架构就到了终极形态。片上 21 PB/s SRAM 带宽负责计算,CPO 负责多机扩展,权重常驻不动,activation 光速流转,一台专为推理而生的性能巨兽。这套系统在 decode 吞吐上可能没有理论对手。 推理是 AI 产业链里离收入最近的环节,谁的 token 更快更便宜,谁就吃到最大的商业化红利。尤其是高频交易、实时 Agentic 工作流、自动驾驶决策链这类对推理速度有确定性要求的场景,够用和极致之间的差距就是能做和不能做的区别。
显示更多
0
28
125
19
转发到社区
OpenAI 跟 Cerebras 那笔 750MW 的合同今年 1 月签的,1 月份报道的合同价值超过 100 亿美元,后来 S-1 招股书披露的 Master Relationship Agreement 总价值超过 200 亿美元(包含到 2030 年的扩展选项)。第一个产品 2 月 12 日就上线了,叫 GPT-5.3-Codex-Spark。这个产品本身就是 Cerebras 推理引擎实战表现的一份成绩单,可以从几个方面做具体判断。 吞吐方面,Codex-Spark 在 WSE-3 上跑出 1000 tokens/秒以上,标准 GPT-5.3-Codex 跑在 GPU 集群上约 65 tokens/秒,速度差距 15 倍。Cerebras 自己在 gpt-oss-120B 这个开源模型上能跑到 3000 tokens/秒,是当前所有商用推理服务里最高的吞吐。第三方 benchmark 横向对比,同样 gpt-oss-120B 模型在 Cerebras 跟在普通 GPU 推理后端的吞吐差大约 10 倍。这个 10 到 15 倍的实测差距,跟物理层面 Cerebras SRAM 21 PB/s 对比 H100 HBM3 3.35 TB/s 那约 6300 倍带宽鸿沟之间,还有几百倍的 gap,被软件栈、工作负载、batch 处理这些系统级因素吃掉了。 延迟方面,1000 tokens/秒对应每个 token 1 毫秒生成间隔,这个速度的硬件能力反过来暴露了 OpenAI 自己推理 stack 的瓶颈。OpenAI 在 Codex-Spark 上同时引入了持久 WebSocket 连接和 Responses API 重写,每次客户端服务端往返开销减少 80%,per-token 开销减少 30%,time-to-first-token 减少 50%。原来 OpenAI 的整套推理服务架构是按 GPU 推理"几十毫秒一个 token"那个延迟尺度设计的,跟 Cerebras 1 毫秒每 token 的硬件能力对不上,软件栈的开销反而成了瓶颈。Cerebras 的速度让 OpenAI 必须重做整个 web 层,硬件能力升级倒逼软件栈重构。 成本方面,Cerebras 的硬件成本优势目前还没有被公开定价验证。Codex-Spark 只对 ChatGPT Pro 200 美元/月订阅用户开放,API 定价至今未敲定。OpenAI 选择高 ARPU 订阅档而不是开放 API 定价,意味着单位推理成本仍然显著高于普通 GPU 推理服务,需要靠 Pro 订阅的高客单价摊薄 Cerebras 的硬件固定成本。如果 Cerebras 真的便宜过 GPU,OpenAI 应该敢把 Cerebras 后端的 API 价格直接公开。延迟披露 API 价格这件事,可以理解为 cost-per-token 还没真正击穿 GPU 推理的成本曲线。作为参考,Cerebras 自己的推理云上 gpt-oss-120B 定价是 $0.69/M 输出 tokens,GPT-4o 的 API 售价是 $10/M 输出 tokens,但两者模型规模和能力差距很大,不能直接对比。 但 Cerebras 的这套东西有几个关键的约束条件,框定了它现在能做什么、做不了什么。 第一是模型大小限制。Codex-Spark 是蒸馏后的小模型,被显著压缩才能跑进 WSE-3 的 SRAM。WSE-3 的片上 SRAM 只有 44GB,frontier model 的参数量远超这个容量,必须做剪枝或蒸馏才能装得下。换速度的代价是损失约 19 个百分点的模型能力,Terminal-Bench 2.0 上 Spark 约 58% vs 标准 Codex 77.3%。这是 weight streaming 在工程上仍然不够好的旁证,OpenAI 选择用蒸馏小模型而不用 weight streaming 跑大模型,说明前者目前在工程上更可行。 第二是容量限制。Codex-Spark 目前是 research preview,OpenAI 明确说明"由于运行在专用低延迟硬件上,使用受独立速率限制约束"。这个表述基本等同于承认 Cerebras 容量稀缺。750MW 全部部署完需要数千台 CS-3,对应 Cerebras 的整机产线是巨大的扩产挑战。这也是招股书里 RPO 约 246 亿美元有 85% 要到 2028 年之后才能确认收入的根本原因,硬件交付的物理速度限制了营收节奏。 总结来说,OpenAI 这笔交易对 Cerebras 是阶段性胜利,但远没到终局。技术验证层面,Codex-Spark 证明 WSE-3 在中小模型推理上确实能做到 GPU 做不到的速度,这一点产业内已经形成共识。但商业兑现层面,Cerebras 还要解两个核心问题。一是大模型推理的 SRAM 容量限制,OpenAI 用蒸馏小模型而不用 weight streaming 跑大模型,说明 weight streaming 当前还撑不起完整的 frontier model。二是规模化部署的速度,每台 CS-3 都要一片完整的 5nm 晶圆和一套非标准化的整机集成流程,年产几千台 CS-3 是相当具体的工程瓶颈。 对国产推理芯片的同行来说,这件事还有几个很具体的工程信号。 端到端延迟优化的价值正在被产业重估。OpenAI 重写整个 Responses API 说明硬件再快,软件栈跟不上的话推理体验仍然受限,专用推理芯片的价值要靠端到端的延迟优化才能完全释放。 蒸馏在产业部署里的实际重要性远超学术讨论的程度。OpenAI 这种规模都要为了跑 Cerebras 专门蒸馏模型,说明专用推理硬件 + 专用蒸馏模型这个组合是接下来一段时间的主流形态,单纯的"通用推理芯片"在竞争中会比较吃亏。 1000 tokens/秒正在成为 Agentic AI 工作流的新基准。慢于这个速度的推理硬件在交互式 agent 场景下会被边缘化,这个速度天花板对国产推理芯片是一个相当严峻的目标。 Cerebras 当前展示的能力是真实的,但商业化释放节奏被产能和工程瓶颈卡住了。研究 Cerebras 的真正关键,一是看它在 2027-2028 年能不能把 750MW 真的部署完,把 RPO 真的转成营收;二是看它能不能在 OpenAI 之外签下新的推理大客户。AWS 的 CS-3 上架是一个信号,但目前还没有第二个 OpenAI 量级的合同出现。从 G42 依赖到 OpenAI 依赖,客户质量在提升,但集中度的风险结构没有改变,只有客户组合真正分散了,估值里的风险溢价才能消化。
显示更多
0
67
306
44
转发到社区
针对英伟达(NVIDIA)即将发布的 Feynman(费曼) 架构,整理了关于三种记忆体SRAM,HBM5,HBF在费曼架构中的协作关系。很多人被这种眼花撩乱的记忆体搞懵了,我来给你们缕顺它们。 一、 3D SRAM:纳秒级“热记忆”突触 (计算核心的物理延伸) 核心功能: 消除访存延迟:提供 < 1ns 的响应,存储单周期内的**瞬时激活值(Activations)**与指令碎片。 高速缓冲池:作为 HBM5 与 Tensor Core 之间的桥梁,通过 SoIC(混合键合) 直接堆叠在 GPU 核心上方,确保计算单元零空转。 技术规格: 带宽/容量:片上带宽 > 150 TB/s,单片容量 1.5 GB - 3 GB。 工艺:采用 2nm / 3nm 工艺,由台积电(TSMC)主导 SoIC 堆叠。 厂商格局:海力士与美光聚焦高密度 6T SRAM 单元以优化热功耗;三星则利用 IDM 优势自研定制化 SRAM 晶圆。 二、 HBM5:费曼架构的“温记忆”主干 (存内计算与 3D 键合巅峰) 核心功能: 模型全集载体:存储 全量权重(Weights) 与 活跃 KV 缓存。 存内计算 (PIM):底层 Base Die 由英伟达定制,支持在存储端直接进行向量加法等预处理,释放 GPU 算力。 技术规格: 性能:单芯片带宽 15 - 20 TB/s,单卡容量可达 1 TB。 互联:全面转向 Hybrid Bonding(混合键合),支持 20-24 层 堆叠。 厂商路径: SK 海力士:依靠 Advanced MR-MUF 向混合键合平滑过渡。 三星:路线最激进,主导 16 层以上全混合键合。 美光:主攻低功耗控制(低 pJ/bit)。 闪迪/西数:通过 CBA 技术 积累提供高速逻辑层 IP。 三、 HBF (High Bandwidth Flash):智能体“冷记忆”仓库 (长上下文存储的终极方案) 核心功能: ICMS 平台核心:专门存储 非活跃 KV 缓存,解决 AI Agent 数月跨度的对话记忆。 冷热置换:通过 CXL 3.1 协议实现与 HBM5 的数据无损迁徙。 技术规格: 性能:读取速率达 1.6 - 2 TB/s(接近 HBM),容量高达 8 TB - 16 TB。 耐久度:内置硬件磨损均衡引擎,寿命达普通 NAND 的 5 倍。 厂商路径: 闪迪/西数:领军者,将 HBF 控制器直接键合在 BiCS NAND 下方。 SK 海力士:开发 HBF-NAND 堆栈,力求外形尺寸与 HBM 统一。 三星:推出低延迟 Z-NAND 混合体,缩小与 DRAM 的性能鸿沟。 四、 协作关系总结:AI Agent 任务流 在英伟达费曼(Feynman)架构的 AI Agent 任务流中,三者构建了从“神经反射”到“深度思考”的记忆闭环:3D SRAM 以 < 1ns 的延迟在芯片内实时处理瞬时激活值与指令,确保计算核心零停顿;HBM5 作为封装内的动力心脏,通过 \sim 5 TB/s 的带宽承载全量模型权重与活跃 KV 缓存,维持推理逻辑的连贯性;而 HBF 则作为系统级的长期记忆库,利用 8-16 TB 的海量空间存储非活跃上下文,通过 CXL 3.1 协议与 HBM5 实现数据的冷热置换,共同支撑起智能体跨越时空的复杂任务处理能力。
显示更多
0
17
189
36
转发到社区
今天看到一份报告,讲到2030年,未来75%的AI计算需求将会来自推理,这里面将会催生出AI投资下半场的巨大机会,下面👇我们来简单聊一聊。🧐 过去两年,大家都在疯狂囤 GPU 训练模型,烧钱堆算力。但最近大家有没有发现,情况开始变了?尤其是小龙虾🦞出来以后,各类Agent可谓大爆发,Token需求指数级增长。一个崭新的推理时代正在到来,未来AI最大的叙事点是让AI应用走进全球几十亿用户手中,并真正使用起来! 这个转折点,我把它叫做从「训练时代」到「推理时代」的切换。而在这个新阶段,CPU 和定制芯片将是未来真正的主角。 👇咱们掰开揉碎了讲讲,为啥我开始盯上这些以前不起眼的家伙: 🎯 AI 现在有「脑子」了 以前的 AI 就是个工具,我问它答,无法去执行具体的工作。现在不一样了,Agentic AI来了,它能帮我订机票、改文档、写代码,甚至帮我规划整个工作流程。 这种活儿需要大量的逻辑判断和顺序编排。以前GPU是肌肉男,干体力活厉害;但现在这种执行活,CPU 才是指挥官,它擅长处理复杂的逻辑。AI 越聪明,越需要 CPU 来调度指挥。 🎯 大厂也得省钱啊 看财报,各大厂在AI领域的资本开支都十分庞大,其中七巨头除苹果之外,26年全年资本开支总额超过了6000亿美金。不要以为谷歌、Meta 这些巨头就不差钱。恰恰相反,他们也是把钱花在刀刃上。假如一直用英伟达的通用 GPU 来搞推理,电费和硬件成本会把他们吃掉。 所以大厂开始自己设计专用芯片ASIC,就像咱们切菜用菜刀、砍柴用斧头,专芯专用,效率高成本低。这是实打实的降本增效。 基于上述逻辑,我们筛了五个核心标的: • #AMD:推理界的全能选手,GPU# MI300/325 系列拥有业内领先的内存带宽(256GB HBM3E内存,带宽达6TB/s,参数上优于英伟达H200),能轻松处理超大规模LLM的实时推理,而且速度快。关键是它还是服务器 CPU 的老二,代理式 AI 需要强 CPU 时,AMD 两头吃。 • #ARM:底层架构之王,谷歌、亚马逊自研芯片基本都跑# ARM 架构,ARM Neoverse 平台已经成为 90% 以上自研 AI 服务器 CPU 的首选。所以大厂搞自研,ARM 相当于在家坐着收过路费。 • 博通(#AVGO):定制芯片的总工程师,它作为# Google TPU、Meta MTIA 和字节跳动的重要合作伙伴,博通在高速互联和封装技术上拥有绝对统治力,是云巨头降低推理成本的首选合作伙伴。大厂想省钱搞自研,离不开博通的技术。 • 迈威尔(#MRVL):深度参与亚马逊# AWS 和微软 Azure 的芯片研发,这俩巨头想摆脱英伟达依赖,必须依靠迈威尔。目前迈威尔的定制硅片业务正从“研发期”进入“爆发收获期”,未来的生意只会越做越大。 • 英特尔(#INTC):虽然最近比较难,但它是唯一有自家晶圆厂的设计商,还拥有全球稀缺的# IDM 2.0 代工能力。当推理导致全球 CPU 需求激增、供应链紧张时,Intel 内部的这种协同效应和本土制造优势将会逐渐凸显,而且它还是服务器 CPU 老大。 看完整份报告,我个人认为有几个大趋势将会成为必然: 首先是从以前的「暴力算力」到未来的「精细化运营」。现在来看,整个AI 投资逻辑正在转变,不再是谁芯片最强,而是谁的方案最省钱、最能落地。说明AI真正商业化全面落地场景下,能效比率才是关键。 其次是供应链博弈。各大云巨头都在搞自研芯片,未来 AI 硬件市场会从「英伟达一家独大」变成「群雄割据」。我认为这对整个产业链将是好事。 最后就是电力依然会成为长期瓶颈。虽然 CPU 和 ASIC 在优化效率,但整体算力规模爆炸,对电力的需求还是无限大。看芯片的同时,能源赛道也值得留意。 总结一句话,#AI# 下半场,别光盯着那块最贵的 GPU,那些负责指挥的CPU和帮大厂省钱的ASIC,可能藏着下一波机会。 目前上述提及的公司在 #MSX# 上面基本都有,炒美股,我选择用 #RWA# 美股代币化平台 #MSX,一同投资参与美股市场:# 早期美股投资粉丝和伙伴,可以私信我,填写表单后,可免费进入美股交流和探讨社群(目前每周仅限定10人,助理审核,可能需要一点时间,感恩🙏)!
显示更多
0
13
212
63
转发到社区
今天推演了一晚上英伟达3.16号的下一代gpu芯片Feynman费曼,给你们刨析到了英伟达真正意图,汇总了一份报告给老板们。 深度报告:《AI 算力的终极变局 —— 费曼(Feynman)架构下的“光、存、算”范式转移》 发布日期: 2026 年 3 月 1 日 核心标的: $NVIDIA, $SK Hynix , #Samsung# , $TSM 台积电, $AVGO 博通, #中际旭创# , #新易盛# 投资主题: 从“芯片外挂”到“系统级封装(SiP)”的降维打击 报告摘要:打破物理极限的三个维度 在 2026 年 GTC 大会的背景下,英伟达正式确立了从 Rubin (2026) 到 Feynman (2028) 的演化路径。其核心战略意图已非常明确:通过 3D 堆叠(SoIC)和硅光子(CPO)技术,将原本属于产业链上下游的利润(存储、网络)强制“吸入”GPU 封装内部,实现从芯片供应商向“全栈系统承包商”的身份转型。 一、 英伟达 GPU 演化路径:从“微缩”转向“空间堆叠” 英伟达的架构演进已进入“后摩尔时代”的物理博弈: Blackwell (2025): 最后一代 2.5D 封装的巅峰,主力适配 1.6T 可插拔光模块。 Rubin (2026): HBM4 的元年。引入 3nm 增强型工艺,首次在 Base Die(底座)上尝试逻辑集成。 Feynman (2028): 终极形态。采用台积电 A16 (1.6nm) 工艺与 背面供电(BSPDN)。 核心创新: 将 SRAM(LPU Dies)垂直堆叠于 GPU 之上。 角色变化: GPU 不再仅仅是计算单元,而是一个自带“高速公路(CPO)”和“超大油箱(3D SRAM)”的独立系统。 二、 存储(HBM & SRAM)演化路径:从“外挂”到“共生” 1. 技术演进与角色变迁 HBM4 (2026/2027): 接口位宽从 1024-bit 翻倍至 2048-bit。最关键的变化是 Base Die(逻辑底座) 的权力移交。存储厂(海力士/三星)必须与 $TSM 台积电深度绑定,生产 5nm 级的逻辑底座。 3D SRAM (2028): 费曼架构引入 LPU Dies。这层高带宽(80-100 TB/s)缓存将承担 70% 的实时计算数据交换,导致 HBM 从“频繁访问的内存”退化为“高容量的背景油箱”。 2. 供需测算:40% GPU 增长下的 EB 级黑洞 按照 GPU 年增 40% 的复合增长率,叠加单卡 HBM 容量倍增(192G \rightarrow 288G \rightarrow 576G): 2026年需求3.63EB供给2.8EB,缺口22.9% 2027 年需求冲破 10 EB供给5.5EB,缺口45% 2028年需求冲破28EB供给11EB,缺口61% 产能博弈: SK 海力士凭借 MR-MUF 工艺的良率优势,在 HBM4 时代仍将拿走 60% 的 NVIDIA 订单。三星则试图通过“Foundry + Memory”的一体化服务(One-stop Solution)在费曼时代通过定制化 Logic Die 翻盘。 三、 光模块演化路径:从“线缆”到“引擎” 光模块正面临行业历史上最剧烈的身份重构: 1. 三段式跨越:Pluggable \rightarrow LPO \rightarrow CPO 可插拔(Pluggable): 正在触碰 1.6T 的功耗墙。 LPO (2025-2026): 新易盛的护城河。通过去除 DSP 降低 30% 功耗,这是费曼量产前解决热瓶颈的最优过渡方案。 CPO (2027+): 博通与中际旭创的终极战场。如图所示,PIC(光子芯片)直接与计算核心通过 SoIC 混合键合。 2. 实质威胁与角色错位 博通 (Broadcom): 利用 ASIC 优势,试图推行“芯片内集成”,直接剥离传统光模块公司的整机价值。 中际旭创/新易盛: 战略意图是向上游挺进。中际旭创通过 70% 的硅光芯片自研率,将自己从“组装厂”转化为“半导体光引擎厂”,从而在费曼芯片的 CPO 供应链中争取“二供”或“定制化服务商”的地位。 四、 英伟达的最终战略意图:建立“物理层”护城河 通过费曼架构,英伟达意图实现以下三个战略垄断: 1.脱离 DRAM 周期绑架: 通过大规模 SRAM 堆叠,降低对外部高价 HBM 带宽的依赖,从而在存储周期涨价时拥有更高的议价权和架构冗余。 2.吞并互连生态: 费曼芯片集成 CPO 后,英伟达不仅卖 GPU,还实质上卖掉了原本属于模块厂的 1.6T/3.2T 互连收入。 3.打造“单卡即机架”: A16 工艺 + 背面供电 + 3D 封装,让单颗费曼芯片的吞吐量等于现在的一个小型机架。这迫使所有下游云巨头(Google, AWS)只能购买其整体解决方案,无法通过自研模块进行“零件组装”。 五、 投资建议:谁是这场再分配的赢家? 绝对确定性:SK 海力士 & 三星。 虽然 SRAM 减少了单位带宽依赖,但总算力暴涨带来的 “容量缺口” 是 EB 级的物理事实。海力士 2026 年单季 $250 亿利润只是开端。 爆发弹性:新易盛 & 中际旭创。 关键指标是“自研芯片替代率”。如果旭创能成功在费曼芯片量产前完成台积电的 SoIC 认证,它将获得类似半导体 IP 公司的估值倍数(Re-rating)。SRAM 堆叠非但不会削弱光模块的重要性,反而会将其推向“决定性”的地位。 台积电: 它是最大赢家。因为无论是底部的 Feynman Die 还是顶部的 LPU Die,以及它们之间的混合键合(Hybrid Bonding),全都要在台积电完成。 系统控制:博通 (Broadcom)。 它是唯一能与英伟达在 CPO 架构上抗衡的巨头,适合作为 AI 网络的防御性底座。 报告结论:英伟达费曼芯片通过 LPU Dies 和PIC/EIC 与 GPU 完全共封装,降低了HBM和光模块公司的溢价能力
显示更多
0
40
503
130
转发到社区