华为τ scaling定律营销策略,无非是more than moore的广义摩尔定律的另一种说法而已
作为芯片架构师,我更感兴趣的,还是芯片密度提升,ppt上41%能耗提升和12.7%性能提升,到底是怎么实现的
看完了论文,感觉华为这次创新,本质上是用设计复杂度高 + 高制造成本 + 超前散热,一定程度弥补了工艺差距
-----------------
1. 华为芯片堆叠带来的等效密度提升,是虚假宣传还是真的,是不是工艺突破?有没有实打实的好处?
等效密度提升的来源,是两片芯片用hybrid bonding技术绑在一起,投影面积理论上能减小一半,但第一代不是全芯片双层折叠,而是选择性折叠关键logic,所以只有大概53%的芯片面积实现了折叠(密度155->238),等到后面几代折叠面积会逐渐增大,到2030年接近全折叠(密度155->292)
这2026第一代等效密度从 2025 年 155 MTr/mm² 跳到 2026 年 238 MTr/mm²,时钟频率也提升了12.7%,功耗比提升41%,表面上看似乎和工艺突破没有什么区别,但有一点重要区别就是leakage power华为从头到尾没有提,只要工艺节点不变,gate leakage、junction leakage 不会因为 3D stacking 自动改善
2030年到2031年的等效密度突变,大概率是来自于2层堆叠到3层堆叠,正如2025到2026年的等效密度突变,时钟频率突变,来自单层到2层折叠
所以从leakage没提这个事来看,这个2031年等效1.4nm,和工艺节点上的突破没有联系。
本质上是用设计复杂度高 + 高成本 + 超前散热 + 超前部署advanced packaging,一定程度弥补了工艺差距
-----------
那么这样看起来虚假的等效密度提升,有用处吗?好处在哪里?
有的,设计上topology折叠,原来要跑几毫米的水平走线,折叠后变成了几十微米。降低了super buffer/bus的长度,降低了clock tree的深度(clock depth -42%、clock wire -28%),clock skew也带来了改良(-25%),这对动态功耗的改善是实实在在的。部分critical path的缩短,也让时钟频率的上升更容易
所以ppt roadmap上performance的提升,从2025年到2026年上升了12.7%,大部分都是来自于时钟频率的上升(12.7%)
所以好处基本上是topology拆分电路逻辑设计上带来的提升
既然没有实质上的工艺提升,华为芯片堆叠带来等效密度提升的trade off代价在哪里?
三个代价:散热超前发展,设计复杂度高,制造成本变高
最大的代价就是热密度的同步上升,理论上logic on logic都是CPU execution发热最严重的区域,这部分折叠起来相当于功耗密度直接翻倍,但算上41% power efficiency改善,功耗密度仍只比非堆叠方案高40%左右。所以第一代只能对最关键的部分做折叠,大概只占全芯片面积的53%。
所以散热技术也被逼的超前发展,直接上毫米级的MEMS风扇,做micro-cooling fan。
另外的代价就是设计复杂度的变高,critical path的折叠,哪个部分的logic能折叠,折叠之后又会带来从前端到后端的巨大变化要推翻重来
现有的所有EDA工具也不可能支持3D topology,论文自己也承认,full-scale LogicFolding需要全新的3D-native EDA toolchain,把多层stacked dies当作单一连续设计实体处理。哪些logic能折叠、折叠后的inter-die timing closure怎么做,Physical Design(PD)也是难点
制造成本也会更高,被迫超前部署advanced packaging封装,1.5~2um的hybrid bonding + logic on logic都是很有挑战需要显著更高的成本
以前一层wafer做一次光刻;现在两层wafer分别做光刻再bonding,加上hybrid bonding的overlay控制(论文要求<0.5μm)、TSV、KOZ keep-out zone、冗余修复、良率乘法损失,每颗芯片的制造成本和测试成本都要显著上升
--------------------------
2. Tau scaling这个说法,scaling的到底是什么,这个scaling技术路线是不是一次性的design topology红利?潜力如何?持续进步的空间在哪里?
τ Scaling的核心主张是:用时间常数τ替代几何线宽作为全栈优化目标,在器件、电路、芯片、系统四个层级分别压缩特征延迟
公式本身没有任何新物理。"关注瓶颈延迟"是所有架构师都在做的事情。整个行业都知道互联RC是延迟瓶颈,TSMC每一代工艺都在用low-k dielectrics/semi-damascene等手段降RC。把一个众所周知的优化方向包装成"定律"是显然的营销宣传手段,本质是More than Moore的广义摩尔定律的另一种说法
抛开marketing,华为目前所谓RC delay的改善,本质上是芯片堆叠之后,topology距离缩短,让匹配的effective RC都变小,不是RC工艺常数
至于scaling的意思,是能持续发展的一条roadmap。这里的持续改善路径指的是,全芯片堆叠的层数越来越多,从25~30年的2层堆叠,到31年开始的3层堆叠,以后甚至会考虑4层堆叠
第一代折叠技术甚至不是全芯片双层折叠,而是选择性折叠关键logic,所以只有大概53%的芯片面积实现了折叠(密度155->238),等到后面几代折叠面积会逐渐增大,到2030年接近全折叠(密度155->292)。2031年的roadmap之所以会出现一个阶跃,就是因为那是从2层折叠到3层折叠的时间点。
但需要注意的是,这个scaling方法的边际效应是逐渐缩小的,折叠成双层的收益是100%,2->3层的收益就只有50%,如果2035年再从3->4层堆叠,收益就只有33%了
另外随着堆叠层数变高,上面说到的三个挑战,散热,设计复杂度,成本,都是越来越大
---------------------
3. 华为的芯片堆叠,是不是TSMC/AMD已经有的hybrid bonding技术?华为做到的是cache on logic,cache on cache,还是logic on logic,logic on logic最大的散热问题是怎么解决的?
是已经有的技术没错,但同时也是把现有技术指标做到了领先也是真的,3D堆叠本身不是新技术,TSMC的hybrid bonding量产还是6um,华为论文给出Kirin 2026的hybrid bonding pitch是1.5μm
我在刚刚看到华为的堆叠消息之后,第一反应也是怀疑和AMD的3D V cache类似,它主要把 SRAM cache 叠在 已经有的L3 cache 区域上,通常会避免直接堆在最热的 CPU execution logic 上,就是避免散热问题,毕竟SRAM 的功耗密度和热点特性与high-activity logic 不一样,如果最热的logic on logic堆叠,散热恐怕会碰到困难
但看了更多数据之后,clock buffer -56%、clock depth -42%、clock wire -28%,这些只有在core内部的clock distribution被重构时才可能发生。纯SRAM stacking不会碰core内部的clock tree。另外如果只是cache on cache,大概率是不需要单独MEMS微型风扇额外散热的,证据普遍都指向logic on logic方式
华为这个技术的精妙之处在于,logic on logic 折叠之后热密度并没有翻倍,而是因为topology的好处,能耗下降了30%,这样热密度只上升了40~50%
而第一代没有完全把整个最热的execution logic 100%堆叠起来,论文也明确说selectively applied along key critical paths,只是大概53%有选择性关键路径会堆叠起来,可能颗粒度都没有那么好,只是IP堆叠在IP上,那么热密度上升也许能维持在20%以内
但这条道路继续前行,超前发展的散热就成了必然,现在是MEMS微型毫米级的主动散热风扇,紧贴处理器传导效率高,和华为手机一样,散热堆料特别足,而且技术领先同行。
以后怕是要把HBM7/8的微流道散热技术提前用起来了,毕竟HBM7/8要上24+层堆叠,华为很可能要在提前用上下个世代的散热技术了
-------------------------
4. 从架构角度来说,最重要的问题,华为41%的power efficiency(能耗比)提升,到底是怎么实现的?为什么AMD的3D V cache没有这么大的提升?
首先确定41%的定义。论文只说"SoC performance-core power efficiency improved by 41%",没有给出benchmark名称、Voltage/Freq点、温度条件、功耗边界。但PPT roadmap上有一个关键线索:ISO-Power Performance的数字,2025年是2.75,2026年是3.1,提升12.7%
这个时钟频率提升12.7%完全一致,可以理解为,同功耗的性能提升是12.7%,绝大部分是时钟频率提升带来的
至于能耗比上优化的猜测是,LogicFolding缩短critical path → 在固定Vdd下Fmax从2.75GHz提升到3.1GHz → 这意味着在原来的2.75GHz频率下,有了约12.7%的timing headroom → 这个空间在iso-performance模式下可以换成更低的Vdd
另外的能耗比的提升,可能也来自于电路折叠之后,cache hit latency的下降。从业界经验来看,一般L2/L3 cache hit latency下降10%,CPU整体性能会有至少5%的提升
ppt里显示SRAM latency下降30%,估计会有一部分转化为cache hit latency的下降
AMD的3D V cache没有这么大的提升,主要是因为AMD的底层logic die并没有重新设计,3D cache的延迟latency不仅没有减小反而加大,只是增加了cache大小,收益不如latency下降那么明显。
另一方面,clock skew的下降,critical路径变短,造成电路timing变好,意味着华为可以使用更低的vdd(猜测甚至能低7~8%),以及路径缩短所带来的RC的下降(考虑到clock buffer -56%、wire -28%、SRAM pJ/bit -24%这些数字,比如C_eff下降10~15%合理),再加上clock tree的整体缩短和下降,确实是有可能在部分Voltage/Freq点做到同性能下,做到30%的功耗下降的,而30%的功耗下降换算过来就是41%的power efficiency
对比苹果和高通,每一代手机芯片在iso-power下单核性能一般提升10-20%,iso-performance下功耗一般降30-40%,这是V/F曲线的特性决定的,所以从经验上来说,数字是对的上的。
所以这个power efficiency(能耗比)的提升,从现有的数字上来说可以从topology推导出来是合理的,可能真的和工艺节点没有太大关系
----------------------------
5. 这个技术路线有没有可复制性,其他家会不会效仿?
短期内不会大规模效仿,因为性价比和风险收益比来说不好。长期来看,这个方向所有人都在走,只是名字不一样
华为做LogicFolding的根本驱动力是制裁,工艺节点被卡在7nm,只能在封装,散热,和设计层面想办法弥补。华为也为此付出了不小的代价:散热成本,设计复杂度,以及制造成本更高(包括良率)。这是一个被逼出来的路线,不是一个自然选择
其他玩家在用TSMC就能做到正常的经济迭代,是没有必要冒着这个风险,去超前迭代散热技术和设计复杂度的
长期来看,Intel的Foveros、TSMC的SoIC、AMD的MI300的3D stacking都在朝同一个方向走。如果继续追最先进节点的经济性持续恶化,那么"固定一个成熟节点+3D topology optimization"的路线会越来越有吸引力
散热方面,MEMS微型风扇和微流道也会成为未来HBM散热的主流
-------------------
总结一下,华为这次的创新,绝对是值得尊重的,在制裁环境下,用极高的设计复杂度和成本,在一个被锁定的工艺节点上大胆重新设计,榨出了一次大的topology红利,虽然它有天花板。每多加一层的边际收益递减(堆叠1->2层, 2->3层, 3->4层,提升百分比变小),leakage无法解决,散热越来越难,3D EDA工具链更是全新的挑战。
但这个Tau scaling不是一条可以走十年的指数增长路径,每次爬完一个台阶,下一个台阶更难爬,而且台阶更矮收益更小,华为以后想缩小差距,还得再想想靠什么其他的路线
顯示更多
记得Defi Summer 20年到22年这三年时间,大家经常感慨的一句话就是“币圈一天,人间一年”
因为技术迭代太快了,每天都有数不行的新东西出来,几天不看就跟不上节奏
现在这个感觉在币圈彻底消失,在AI那边出现了,每天的新东西就看不完,真的看不完
正好这几天看到圈里讨论Cerebras的帖子多了起来,昨天还看到不少路演信息,毕竟14号要挂牌交易。之前在Amber做分享的时候也单独讲过这个公司(当时用的那页PPT放在文末),所以简单说下我对Cerebras的判断
先说结论:这家公司很有意思,但核心变量不一定是他们造的芯片本身,而是未来AI的workload形态会是成什么样。
先简单说下它是干嘛的,防止有老铁还没看Cerebras
它最核心的技术,就是wafer-scale chip(晶圆级芯片),简单理解就是别人还在用“邮票大小”的芯片,它直接把整片晶圆做成一颗超大处理器,再配上超大 SRAM,把大量数据尽量留在本地高速处理,减少传统GPU最头疼的memory bottleneck。现在海力士美光涨上天就是因为HBM这东西太抢手,Cerebras是直接绕开了对HBM的依赖
很多人看到 Cerebras最牛逼的benchmark:推理速度比GPU快10-15倍,第一反应就是下一个英伟达?!
先别急。
这个benchmark最大的问题,是默认AI的核心需求永远是“更快吐token”。
如果只是人类盯着ChatGPT聊天,这故事其实没那么性感。你每秒吐 30 个 token,我已经快读不过来了。再翻10倍,边际体验提升几乎为零。
真正有意思的是 Agent。
Agent不读字,Agent消费Token。速度直接等于生产力。
一个OpenClaw/Hermes agent,如果要读网页、写计划、调 API、跑代码、报错重试、继续执行,一个任务可能要几十次 inference call。
每次 2 秒,任务就是分钟级体验。
每次 200ms,就是另一个世界。
所以 Cerebras更值得关注的地方,是 AI worker 这条线,而不是单纯的chatbot加速。
但问题来了 - 它的magic来自 wafer-scale + 超大SRAM,本地访问极快。但SRAM这东西有天然 tradeoff,速度快,容量贵,大模型塞不下就必须拆分。
而一旦拆分,chip-to-chip communication 就上来了。
LLM inference里最怕通信的恰恰是 decode 阶段。token 是一个一个往外吐的,每多一次 hop,延迟就是硬加上去,没法隐藏。
所以 Cerebras能不能成,关键根本不在“比 GPU 快几倍”,而是未来 AI 的主流计算形态到底是什么。
1. 时间线一 - 未来几年还是 前沿超大模型一统天下,动不动几千亿甚至万亿参数,所有请求都让超大模型自己处理,那 Nvidia的distributed infra 依然最舒服,Cerebras的速度优势会被通信损耗吃掉很多。
2. 时间线二 - MoE、蒸馏、量化这些技术如果继续快速进步,未来两年70B左右的模型做到今天700B模型 80%-90% 的效果,我一点都不意外。(这里要强烈感谢Deepseek一大波!)
如果世界往这个方向走,故事就变了。
大模型负责 planning / judgement / orchestration。
真正执行任务的大量 worker model 落在 30B-70B 这个区间。
这些模型足够聪明,又刚好能吃到高速本地推理带来的红利。
Agent 世界里,大部分token根本不需要最聪明的大脑。很多工作本质就是执行层体力活:浏览网页、改代码、调工具、retry、继续跑流程。
这个 topology一旦成立,Cerebras就直接进入自己的甜区
3. 时间线三 - 未来推理是端侧为主,用的都是8B,14B的这些小模型,那GPU也能跑的很好,甚至专用的ASIC芯片效率更高,这个场景下Cerebras的优势和护城河也就不高了
换句话说,超大模型云端推理或者超小模型的端侧推理这两个平行宇宙,Cerebras的优势都不够明显,只有主流推理落在32B-70B中等模型这个Size,正好“Big enough to stress GPU memory, Small enough to fit locally” 才是Cerebras最能大展身手的世界
所以我对Cerebras的判断是,300多亿的市值,短期看订单,财务报表这些数据,长期赌的则是未来Agent时代的计算范式到底落在哪个平行宇宙的时间线上
顯示更多
一文看懂AI数据中心大周期下的功率半导体
的下一场军备竞赛,不再只是GPU,而是Power
AI 数据中心正越来越大,一个数据中心耗能动辄相当于一座中型城市。
过去的数据中心是 10-20kW/rack,现在已经变成 80kW、120kW,甚至 600kW/rack。大型 AI Cluster 的耗电已进入 GW 级别。
瓶颈除了GPU、cpu和储存,也开始转向电流、热、配电、铜损、电力转换效率、电网接入和 HVDC。
AI 数据中心产业链:
电网 → 变压器 → UPS → HVDC → PSU → VRM → GPU。
传统服务器大量采用 48V,因为传统互联网时代机柜功率不高。但 AI 时代,低压系统的问题开始全面暴露。因为:
P = VI
同样 1MW 功率,48V 需要超过 20,000A 电流,400V 大约 2,500A,800V 进一步下降到约 1,250A。
电流下降意味着铜缆变细、铜损下降、发热下降、母排缩小、PSU 压力下降、液冷压力下降,建设难度下降,成本更低。
800V 是电动车已验证的高压平台,EV 为什么进入 800V?因为快充、高功率、降低线损和降低热损耗。
今天 AI 数据中心遇到的是同样的问题。于是 SiC、高压 MOSFET、高压 DC/DC、高压 PSU、HVDC、Busbar、固态变压器,这些原本偏新能源车的产业链,开始向 AIDC 外溢。
但 800V可能只是开始,真正的大方向是 HVDC(高压直流化)。
这是为什么传统工业电力公司突然重新被市场估值。像 Vertiv、Eaton、Schneider Electric、ABB、Siemens,开始成为 AI 产业链的重要受益者。
这也是为什么功率半导体正在被市场重估值。
英飞凌就是一个典型的从服务汽车的功率半导体无缝过渡到电力基础设施半导体的公司。
英飞凌可能是目前全球少数真正做到“Grid-to-Core”的功率半导体平台。从电网侧高压、HVDC、PSU、GPU 供电、高频 GaN、Driver、Controller、MCU,到功率模块、MOSFET、SiC,几乎全部覆盖。
这也是它最大的护城河。
更重要的是,英飞凌不是 Fabless,而是 IDM。自己设计、自己制造、自己封装、自己测试。这在功率半导体行业极其重要。因为功率半导体和 CPU/GPU 不同。逻辑芯片拼的是 EUV、FinFET、GAA、晶体管密度。功率半导体真正拼的是热管理、高压稳定性、长寿命可靠性、材料、封装、外延和良率。尤其 AI 数据中心未来是长时间满载、高电流、高热密度、高压。制造本身就是技术。
英飞凌现在真正重要的资产,包括 Villach、Dresden、Kulim。其中最关键的是 300mm power fab 和 200mm SiC。市场低估了一点:300mm 功率半导体其实非常难。因为热应力、良率、高压器件、缺陷控制,都远比普通成熟制程复杂。而 AI 时代,功率器件需求开始进入大规模扩张阶段。先进功率半导体制造能力本身,开始重新变成护城河。
如果只看“最纯”的 AI 高压 power 玩家,则是 Navitas Semiconductor 和 Wolfspeed 这种公司。尤其 Navitas,本质上是 GaN + AI 高效率 power 的纯 Beta。
Wolfspeed 则是另一种逻辑。市 AI 数据中心如果全面进入 SiC PSU、HVDC、高压电力架构,那么它可能迎来第二增长曲线。
另外还有大型工业电力平台。比如 Eaton、Schneider Electric、ABB。因为它们控制的是配电、中压、低压、断路器、电力管理和数据中心 power topology。而这些东西的 switching cost 极高。AI 最终会发现,GPU 可以换代,但电力架构一旦确定,生命周期极长。
总的来说,谁能持续解决 AI 超高功率密度时代的电流、热、效率、配电、可靠性和电网接入,谁就可能在这个赛道上持续领先。因为 AI 的下一轮瓶颈,已经开始从 GPU,转向 Power。而这条产业链,现在还远没有被市场 fully priced in。
免责声明:本人持有文章中提及资产,观点充满偏见,非投资建议,dyor
顯示更多