川沐｜Trumoo🐮(@xiaomustock ):针对英伟达（NVIDIA）即将发布的 Feynman（费曼）架构，整理了关于三种记忆体SRAM，HBM5，HBF在费曼架构中的协作关系。很多人被这种眼花撩乱的记忆体搞懵了，我来给你们缕顺它们。一、 3D SRAM：纳秒级“热记忆”突触（计算核心的物理延伸）核心功能：消除访存延迟：提供 < 1ns 的响应，存储单周期内的**瞬时激活值（Activations）**与指令碎片。高速缓冲池：作为 HBM5 与 Tensor Core 之间的桥梁，通过 SoIC（混合键合）直接堆叠在 GPU 核心上方，确保计算单元零空转。技术规格：带宽/容量：片上带宽 > 150 TB/s，单片容量 1.5 GB - 3 GB。工艺：采用 2nm / 3nm 工艺，由台积电（TSMC）主导 SoIC 堆叠。厂商格局：海力士与美光聚焦高密度 6T SRAM 单元以优化热功耗；三星则利用 IDM 优势自研定制化 SRAM 晶圆。二、 HBM5：费曼架构的“温记忆”主干（存内计算与 3D 键合巅峰）核心功能：模型全集载体：存储全量权重（Weights）与活跃 KV 缓存。存内计算 (PIM)：底层 Base Die 由英伟达定制，支持在存储端直接进行向量加法等预处理，释放 GPU 算力。技术规格：性能：单芯片带宽 15 - 20 TB/s，单卡容量可达 1 TB。互联：全面转向 Hybrid Bonding（混合键合），支持 20-24 层堆叠。厂商路径： SK 海力士：依靠 Advanced MR-MUF 向混合键合平滑过渡。三星：路线最激进，主导 16 层以上全混合键合。美光：主攻低功耗控制（低 pJ/bit）。闪迪/西数：通过 CBA 技术积累提供高速逻辑层 IP。三、 HBF (High Bandwidth Flash)：智能体“冷记忆”仓库（长上下文存储的终极方案）核心功能： ICMS 平台核心：专门存储非活跃 KV 缓存，解决 AI Agent 数月跨度的对话记忆。冷热置换：通过 CXL 3.1 协议实现与 HBM5 的数据无损迁徙。技术规格：性能：读取速率达 1.6 - 2 TB/s（接近 HBM），容量高达 8 TB - 16 TB。耐久度：内置硬件磨损均衡引擎，寿命达普通 NAND 的 5 倍。厂商路径：闪迪/西数：领军者，将 HBF 控制器直接键合在 BiCS NAND 下方。 SK 海力士：开发 HBF-NAND 堆栈，力求外形尺寸与 HBM 统一。三星：推出低延迟 Z-NAND 混合体，缩小与 DRAM 的性能鸿沟。四、协作关系总结：AI Agent 任务流在英伟达费曼（Feynman）架构的 AI Agent 任务流中，三者构建了从“神经反射”到“深度思考”的记忆闭环：3D SRAM 以 < 1ns 的延迟在芯片内实时处理瞬时激活值与指令，确保计算核心零停顿；HBM5 作为封装内的动力心脏，通过 \sim 5 TB/s 的带宽承载全量模型权重与活跃 KV 缓存，维持推理逻辑的连贯性；而 HBF 则作为系统级的长期记忆库，利用 8-16 TB 的海量空间存储非活跃上下文，通过 CXL 3.1 协议与 HBM5 实现数据的冷热置换，共同支撑起智能体跨越时空的复杂任务处理能力。

2026.03.06 11:40

针对英伟达（NVIDIA）即将发布的 Feynman（费曼）架构，整理了关于三种记忆体SRAM，HBM5，HBF在费曼架构中的协作关系。很多人被这种眼花撩乱的记忆体搞懵了，我来给你们缕顺它们。一、 3D SRAM：纳秒级“热记忆”突触（计算核心的物理延伸）核心功能：消除访存延迟：提供 < 1ns 的响应，存储单周期内的**瞬时激活值（Activations）**与指令碎片。高速缓冲池：作为 HBM5 与 Tensor Core 之间的桥梁，通过 SoIC（混合键合）直接堆叠在 GPU 核心上方，确保计算单元零空转。技术规格：带宽/容量：片上带宽 > 150 TB/s，单片容量 1.5 GB - 3 GB。工艺：采用 2nm / 3nm 工艺，由台积电（TSMC）主导 SoIC 堆叠。厂商格局：海力士与美光聚焦高密度 6T SRAM 单元以优化热功耗；三星则利用 IDM 优势自研定制化 SRAM 晶圆。二、 HBM5：费曼架构的“温记忆”主干（存内计算与 3D 键合巅峰）核心功能：模型全集载体：存储全量权重（Weights）与活跃 KV 缓存。存内计算 (PIM)：底层 Base Die 由英伟达定制，支持在存储端直接进行向量加法等预处理，释放 GPU 算力。技术规格：性能：单芯片带宽 15 - 20 TB/s，单卡容量可达 1 TB。互联：全面转向 Hybrid Bonding（混合键合），支持 20-24 层堆叠。厂商路径： SK 海力士：依靠 Advanced MR-MUF 向混合键合平滑过渡。三星：路线最激进，主导 16 层以上全混合键合。美光：主攻低功耗控制（低 pJ/bit）。闪迪/西数：通过 CBA 技术积累提供高速逻辑层 IP。三、 HBF (High Bandwidth Flash)：智能体“冷记忆”仓库（长上下文存储的终极方案）核心功能： ICMS 平台核心：专门存储非活跃 KV 缓存，解决 AI Agent 数月跨度的对话记忆。冷热置换：通过 CXL 3.1 协议实现与 HBM5 的数据无损迁徙。技术规格：性能：读取速率达 1.6 - 2 TB/s（接近 HBM），容量高达 8 TB - 16 TB。耐久度：内置硬件磨损均衡引擎，寿命达普通 NAND 的 5 倍。厂商路径：闪迪/西数：领军者，将 HBF 控制器直接键合在 BiCS NAND 下方。 SK 海力士：开发 HBF-NAND 堆栈，力求外形尺寸与 HBM 统一。三星：推出低延迟 Z-NAND 混合体，缩小与 DRAM 的性能鸿沟。四、协作关系总结：AI Agent 任务流在英伟达费曼（Feynman）架构的 AI Agent 任务流中，三者构建了从“神经反射”到“深度思考”的记忆闭环：3D SRAM 以 < 1ns 的延迟在芯片内实时处理瞬时激活值与指令，确保计算核心零停顿；HBM5 作为封装内的动力心脏，通过 \sim 5 TB/s 的带宽承载全量模型权重与活跃 KV 缓存，维持推理逻辑的连贯性；而 HBF 则作为系统级的长期记忆库，利用 8-16 TB 的海量空间存储非活跃上下文，通过 CXL 3.1 协议与 HBM5 实现数据的冷热置换，共同支撑起智能体跨越时空的复杂任务处理能力。

显示更多