註冊並分享邀請連結,可獲得影片播放與邀請獎勵。

檢索結果 Efficiency
Efficiency 貼吧
一個關鍵字就是一個貼吧,路徑全站唯一。
建立貼吧
用戶
未找到
包含 Efficiency 的搜尋結果
华为τ scaling定律营销策略,无非是more than moore的广义摩尔定律的另一种说法而已 作为芯片架构师,我更感兴趣的,还是芯片密度提升,ppt上41%能耗提升和12.7%性能提升,到底是怎么实现的 看完了论文,感觉华为这次创新,本质上是用设计复杂度高 + 高制造成本 + 超前散热,一定程度弥补了工艺差距 ----------------- 1. 华为芯片堆叠带来的等效密度提升,是虚假宣传还是真的,是不是工艺突破?有没有实打实的好处? 等效密度提升的来源,是两片芯片用hybrid bonding技术绑在一起,投影面积理论上能减小一半,但第一代不是全芯片双层折叠,而是选择性折叠关键logic,所以只有大概53%的芯片面积实现了折叠(密度155->238),等到后面几代折叠面积会逐渐增大,到2030年接近全折叠(密度155->292) 这2026第一代等效密度从 2025 年 155 MTr/mm² 跳到 2026 年 238 MTr/mm²,时钟频率也提升了12.7%,功耗比提升41%,表面上看似乎和工艺突破没有什么区别,但有一点重要区别就是leakage power华为从头到尾没有提,只要工艺节点不变,gate leakage、junction leakage 不会因为 3D stacking 自动改善 2030年到2031年的等效密度突变,大概率是来自于2层堆叠到3层堆叠,正如2025到2026年的等效密度突变,时钟频率突变,来自单层到2层折叠 所以从leakage没提这个事来看,这个2031年等效1.4nm,和工艺节点上的突破没有联系。 本质上是用设计复杂度高 + 高成本 + 超前散热 + 超前部署advanced packaging,一定程度弥补了工艺差距 ----------- 那么这样看起来虚假的等效密度提升,有用处吗?好处在哪里? 有的,设计上topology折叠,原来要跑几毫米的水平走线,折叠后变成了几十微米。降低了super buffer/bus的长度,降低了clock tree的深度(clock depth -42%、clock wire -28%),clock skew也带来了改良(-25%),这对动态功耗的改善是实实在在的。部分critical path的缩短,也让时钟频率的上升更容易 所以ppt roadmap上performance的提升,从2025年到2026年上升了12.7%,大部分都是来自于时钟频率的上升(12.7%) 所以好处基本上是topology拆分电路逻辑设计上带来的提升 既然没有实质上的工艺提升,华为芯片堆叠带来等效密度提升的trade off代价在哪里? 三个代价:散热超前发展,设计复杂度高,制造成本变高 最大的代价就是热密度的同步上升,理论上logic on logic都是CPU execution发热最严重的区域,这部分折叠起来相当于功耗密度直接翻倍,但算上41% power efficiency改善,功耗密度仍只比非堆叠方案高40%左右。所以第一代只能对最关键的部分做折叠,大概只占全芯片面积的53%。 所以散热技术也被逼的超前发展,直接上毫米级的MEMS风扇,做micro-cooling fan。 另外的代价就是设计复杂度的变高,critical path的折叠,哪个部分的logic能折叠,折叠之后又会带来从前端到后端的巨大变化要推翻重来 现有的所有EDA工具也不可能支持3D topology,论文自己也承认,full-scale LogicFolding需要全新的3D-native EDA toolchain,把多层stacked dies当作单一连续设计实体处理。哪些logic能折叠、折叠后的inter-die timing closure怎么做,Physical Design(PD)也是难点 制造成本也会更高,被迫超前部署advanced packaging封装,1.5~2um的hybrid bonding + logic on logic都是很有挑战需要显著更高的成本 以前一层wafer做一次光刻;现在两层wafer分别做光刻再bonding,加上hybrid bonding的overlay控制(论文要求<0.5μm)、TSV、KOZ keep-out zone、冗余修复、良率乘法损失,每颗芯片的制造成本和测试成本都要显著上升 -------------------------- 2. Tau scaling这个说法,scaling的到底是什么,这个scaling技术路线是不是一次性的design topology红利?潜力如何?持续进步的空间在哪里? τ Scaling的核心主张是:用时间常数τ替代几何线宽作为全栈优化目标,在器件、电路、芯片、系统四个层级分别压缩特征延迟 公式本身没有任何新物理。"关注瓶颈延迟"是所有架构师都在做的事情。整个行业都知道互联RC是延迟瓶颈,TSMC每一代工艺都在用low-k dielectrics/semi-damascene等手段降RC。把一个众所周知的优化方向包装成"定律"是显然的营销宣传手段,本质是More than Moore的广义摩尔定律的另一种说法 抛开marketing,华为目前所谓RC delay的改善,本质上是芯片堆叠之后,topology距离缩短,让匹配的effective RC都变小,不是RC工艺常数 至于scaling的意思,是能持续发展的一条roadmap。这里的持续改善路径指的是,全芯片堆叠的层数越来越多,从25~30年的2层堆叠,到31年开始的3层堆叠,以后甚至会考虑4层堆叠 第一代折叠技术甚至不是全芯片双层折叠,而是选择性折叠关键logic,所以只有大概53%的芯片面积实现了折叠(密度155->238),等到后面几代折叠面积会逐渐增大,到2030年接近全折叠(密度155->292)。2031年的roadmap之所以会出现一个阶跃,就是因为那是从2层折叠到3层折叠的时间点。 但需要注意的是,这个scaling方法的边际效应是逐渐缩小的,折叠成双层的收益是100%,2->3层的收益就只有50%,如果2035年再从3->4层堆叠,收益就只有33%了 另外随着堆叠层数变高,上面说到的三个挑战,散热,设计复杂度,成本,都是越来越大 --------------------- 3. 华为的芯片堆叠,是不是TSMC/AMD已经有的hybrid bonding技术?华为做到的是cache on logic,cache on cache,还是logic on logic,logic on logic最大的散热问题是怎么解决的? 是已经有的技术没错,但同时也是把现有技术指标做到了领先也是真的,3D堆叠本身不是新技术,TSMC的hybrid bonding量产还是6um,华为论文给出Kirin 2026的hybrid bonding pitch是1.5μm 我在刚刚看到华为的堆叠消息之后,第一反应也是怀疑和AMD的3D V cache类似,它主要把 SRAM cache 叠在 已经有的L3 cache 区域上,通常会避免直接堆在最热的 CPU execution logic 上,就是避免散热问题,毕竟SRAM 的功耗密度和热点特性与high-activity logic 不一样,如果最热的logic on logic堆叠,散热恐怕会碰到困难 但看了更多数据之后,clock buffer -56%、clock depth -42%、clock wire -28%,这些只有在core内部的clock distribution被重构时才可能发生。纯SRAM stacking不会碰core内部的clock tree。另外如果只是cache on cache,大概率是不需要单独MEMS微型风扇额外散热的,证据普遍都指向logic on logic方式 华为这个技术的精妙之处在于,logic on logic 折叠之后热密度并没有翻倍,而是因为topology的好处,能耗下降了30%,这样热密度只上升了40~50% 而第一代没有完全把整个最热的execution logic 100%堆叠起来,论文也明确说selectively applied along key critical paths,只是大概53%有选择性关键路径会堆叠起来,可能颗粒度都没有那么好,只是IP堆叠在IP上,那么热密度上升也许能维持在20%以内 但这条道路继续前行,超前发展的散热就成了必然,现在是MEMS微型毫米级的主动散热风扇,紧贴处理器传导效率高,和华为手机一样,散热堆料特别足,而且技术领先同行。 以后怕是要把HBM7/8的微流道散热技术提前用起来了,毕竟HBM7/8要上24+层堆叠,华为很可能要在提前用上下个世代的散热技术了 ------------------------- 4. 从架构角度来说,最重要的问题,华为41%的power efficiency(能耗比)提升,到底是怎么实现的?为什么AMD的3D V cache没有这么大的提升? 首先确定41%的定义。论文只说"SoC performance-core power efficiency improved by 41%",没有给出benchmark名称、Voltage/Freq点、温度条件、功耗边界。但PPT roadmap上有一个关键线索:ISO-Power Performance的数字,2025年是2.75,2026年是3.1,提升12.7% 这个时钟频率提升12.7%完全一致,可以理解为,同功耗的性能提升是12.7%,绝大部分是时钟频率提升带来的 至于能耗比上优化的猜测是,LogicFolding缩短critical path → 在固定Vdd下Fmax从2.75GHz提升到3.1GHz → 这意味着在原来的2.75GHz频率下,有了约12.7%的timing headroom → 这个空间在iso-performance模式下可以换成更低的Vdd 另外的能耗比的提升,可能也来自于电路折叠之后,cache hit latency的下降。从业界经验来看,一般L2/L3 cache hit latency下降10%,CPU整体性能会有至少5%的提升 ppt里显示SRAM latency下降30%,估计会有一部分转化为cache hit latency的下降 AMD的3D V cache没有这么大的提升,主要是因为AMD的底层logic die并没有重新设计,3D cache的延迟latency不仅没有减小反而加大,只是增加了cache大小,收益不如latency下降那么明显。 另一方面,clock skew的下降,critical路径变短,造成电路timing变好,意味着华为可以使用更低的vdd(猜测甚至能低7~8%),以及路径缩短所带来的RC的下降(考虑到clock buffer -56%、wire -28%、SRAM pJ/bit -24%这些数字,比如C_eff下降10~15%合理),再加上clock tree的整体缩短和下降,确实是有可能在部分Voltage/Freq点做到同性能下,做到30%的功耗下降的,而30%的功耗下降换算过来就是41%的power efficiency 对比苹果和高通,每一代手机芯片在iso-power下单核性能一般提升10-20%,iso-performance下功耗一般降30-40%,这是V/F曲线的特性决定的,所以从经验上来说,数字是对的上的。 所以这个power efficiency(能耗比)的提升,从现有的数字上来说可以从topology推导出来是合理的,可能真的和工艺节点没有太大关系 ---------------------------- 5. 这个技术路线有没有可复制性,其他家会不会效仿? 短期内不会大规模效仿,因为性价比和风险收益比来说不好。长期来看,这个方向所有人都在走,只是名字不一样 华为做LogicFolding的根本驱动力是制裁,工艺节点被卡在7nm,只能在封装,散热,和设计层面想办法弥补。华为也为此付出了不小的代价:散热成本,设计复杂度,以及制造成本更高(包括良率)。这是一个被逼出来的路线,不是一个自然选择 其他玩家在用TSMC就能做到正常的经济迭代,是没有必要冒着这个风险,去超前迭代散热技术和设计复杂度的 长期来看,Intel的Foveros、TSMC的SoIC、AMD的MI300的3D stacking都在朝同一个方向走。如果继续追最先进节点的经济性持续恶化,那么"固定一个成熟节点+3D topology optimization"的路线会越来越有吸引力 散热方面,MEMS微型风扇和微流道也会成为未来HBM散热的主流 ------------------- 总结一下,华为这次的创新,绝对是值得尊重的,在制裁环境下,用极高的设计复杂度和成本,在一个被锁定的工艺节点上大胆重新设计,榨出了一次大的topology红利,虽然它有天花板。每多加一层的边际收益递减(堆叠1->2层, 2->3层, 3->4层,提升百分比变小),leakage无法解决,散热越来越难,3D EDA工具链更是全新的挑战。 但这个Tau scaling不是一条可以走十年的指数增长路径,每次爬完一个台阶,下一个台阶更难爬,而且台阶更矮收益更小,华为以后想缩小差距,还得再想想靠什么其他的路线
顯示更多
0
175
1.8K
486
轉發到社區
P-Token 现已在主网上线,这是对 @solana SPL Token Program 的一次优化重写。 Token 指令的计算成本降低了约 96%,在不改变区块限制的情况下,为整个网络释放出额外 12–13% 的区块空间。 P-Token 使用基于 Pinocchio 的零拷贝架构,替换了当前 SPL Token Program 的底层代码。开发者依然使用相同的 Program ID 和客户端,但能够获得大幅降低的计算消耗,以及全新的批处理功能。 其与原始程序的行为一致性已通过大量审计、模糊测试以及形式化验证进行保障。 完整 SIMD-0266 Efficient Token Program 提案请阅读:
顯示更多
0
19
54
13
轉發到社區
从低谷 2 月 7 日到今天 5 月 7 日,整整三个月的时间里 $VIRTUAL 默默从底部翻了一倍(0.45U 涨到 0.9U),现价接近 1U 相信大部分不怎么关注 @virtuals_io 生态的人都不知道这段时间发生了什么? 或许在他们看来,拉 1 倍并没有什么牛逼的,也激不起一丁点兴奋的荷尔蒙。有很多币安合约上的项目,比如 $RAVE 和 $SIREN,操盘手都是 10 倍和 100 倍的暴力拉砸 相比而言,你仅 1 倍的涨幅有什么可吹嘘的呢,对不对?如果你真这么想那就大错特错 在当下偏熊的市场环境里,前者 VIRTUAL 这 1 倍的背后是需要比牛市多付出好几倍努力才能达成的,这期间需要不断向市场高效的 Ship 各种落地的产品,后者 RAVE 和 SIREN 则完全沦为了 Money Game,一场狗庄对散户纯粹恶意的猎杀 币安如果还纵容这种行为,不仅是对币安自身用户的不负责任,也败坏了整个 Crypto 行业形象。会让圈外人觉得这里除了赌场外一无所有,不如传统赌场讲武德和公平,做市商直接抛除项目基本面随意画线去 scam money @cz_binance @heyibinance @binancezh 下面我重点带大家回顾 Virtuals 近三月所付出的努力都有哪些👇 2 月 • 正式推出 ACP 协议和 ERC-8004 链上声誉,并被韩国未来资产证券研究报告重点引用 • 推出 aGDP 经济体,规模接近 5 亿美金 • 推出 60 days 新发射机制,首发项目 x402guard 成功筹集 200k USDC Build 3 月 • 正式宣布 Base Batches 003 Robotics Track,Virtuals 最高资助 $50K + 导师支持+ SF Demo Day • 和以太坊基金会 AI 部门联合推出 ERC 8183 标准,并打通了主流多链生态 4 月 • 首个完全自主机器人-机器人链上商业交易实现,无人类介入 • 推出 AI Council 来审查 Degenclaw 每周 $100K 的交易竞赛 • 正式推出 Eastworlds,一个新的孵化器,帮助机器人更快脱离实验室,加速代币化 • OpenGradient 选择在 Virtuals 的 Titan 发射台 Launch,市值目前稳定在 2-3 亿美金 5 月 • Degenclaw 大升级并开放给所有人,每周奖池 Double 到 200k USDC • Batch Batches 003 Robotics Track 第一批 Cohort 公布,10 个机器人项目现场 Demo,最终 Opengotchi、SCL 和 Vader 胜出 更多交付的细节就不一而足了,这两天我接待了来成都玩的 @0xWenMoon,他和我说在 Kaito 任职期间,在所有对接合作的项目里,他最喜欢就两个: Virtuals 和 Pendle 我问为什么?他回答道:They are keep shipp ing real products efficiently (他们一直在持续高效的交付真实产品) 掘金大队不少群友都说过一句话,令我印象特别深刻,就是你在 Virtuals 生态玩,不管牛熊,都有赚钱的机会,这是其他 99% Crypto 项目压根不具备的 致敬 🫡 @everythingempty @sal_hotpot666
顯示更多
0
47
81
6
轉發到社區
Web3 版本的 HTTPS——机密协议 HTTPZ 要来了。 它使用 FHE 为每个应用默认启用端到端加密。 FHE 应用之所以一直没有普及,就是因为运行速度过慢。 这正是 @Zama 团队过去五年持续攻克的问题。 如今的 FHE 已经足够高效,能够支持任意类型的应用, 并能使用 Solidity、Python 等主流语言开发, 速度比五年前提升了 100 倍以上。 FHE 还具备量子级别的安全性,目前没有任何已知的量子算法可以破解它。 很多人以为 Zama 是新的 L2, 甚至我最开始也这样理解。 但实际上它不是新的 L1 或 L2, 而是 构建在现有区块链之上的跨链保密层。 这意味着用户无需桥接到新链, 即可直接从任意链与保密的去中心化应用(DApp)交互。 Zama 协议能够在现有的公链上,以保密方式发行、管理和交易资产。 本质上,Zama 协议就像 DEX 背后的“语言机”。 你在前端看不到它,但应用的每一步都在依赖它的基础能力。 ---------------------------------------------------------- The Web3 equivalent of HTTPS — the confidential protocol “HTTPZ” — is on the way. It brings default end-to-end encryption to every application through FHE. The reason FHE hasn’t gone mainstream in the past is simple: it used to be far too slow. That’s exactly what the @Zama team has spent the last five years fixing. Today, FHE is finally efficient enough to power real applications. It works with familiar languages like Solidity and Python, and it’s now over 100× faster than it was just a few years ago. On top of that, FHE provides quantum-resistant security, with no known quantum algorithm capable of breaking it. A lot of people still think Zama is launching a new L2 — I actually thought the same at first. But Zama isn’t a new L1 or L2. It’s a cross-chain confidentiality layer built on top of existing blockchains. This means users don’t need to bridge anywhere. They can interact with confidential DApps directly from their current chain. The Zama protocol enables confidential asset issuance, management, and trading across existing public blockchains. At its core, the Zama protocol works like an execution engine behind the scenes — invisible on the front end, but powering everything underneath.
顯示更多
周末行研---AI拉动的电力电子系统大基建里SiC、GaN 与硅MOSFET的份额浅析 AI数据中心疯狂建设推动的电网大升级,正在让另一个长期被低估的领域重新回到舞台中央:功率半导体。 电力系统核心在于高效地控制电流。而控制电流最核心的器件,就是MOSFET(Metal-Oxide-Semiconductor Field-Effect Transistor)金属-氧化物-半导体场效应晶体管。 过去几十年,全球功率器件几乎都建立在硅MOSFET之上。硅便宜、成熟、产业链完整,因此长期统治整个行业。但随着AI服务器功率暴涨、EV进入800V时代、数据中心向高压化演进、高频电源需求提升,传统硅开始逐渐碰到物理极限。于是,SiC(碳化硅)与GaN(氮化镓)开始崛起。 SiC更像重工业路线。它的核心优势,在于高压与大功率。SiC拥有更高击穿电压、更强导热能力,在高压、高电流场景下效率明显优于传统硅IGBT。因此EV主驱逆变器、光伏逆变器、储能、工业高压驱动、电网、高压UPS这些领域,正在快速SiC化。尤其特斯拉推动的800V平台,本质上是整个SiC产业爆发的重要转折点。过去几年,新能源车一直是SiC最大的驱动力。Wolfspeed、onsemi、STMicroelectronics、Infineon Technologies、ROHM、Mitsubishi Electric等公司,都在这一轮周期中受益。 但SiC并不完美。相比GaN,它通常开关速度更慢、Qg更高、高频性能较弱,高频下磁性器件难进一步缩小。于是GaN走向了另一条路线。GaN真正强的地方,是高频。GaN拥有更低Qg、更低输出电容,以及几乎没有reverse recovery的问题,因此特别适合高频DC-DC、AI服务器供电、GPU VRM、手机快充、高频PSU、小型化电源。 AI可能是GaN真正的大周期。因为AI数据中心正在推动整个供电架构向高频化、高电流化、小型化、高效率演进。尤其48V架构之后,大量高频DC-DC开始成为核心瓶颈,而这正是GaN的甜点区。 传统服务器机架可能只有5-10kW,现在AI机架已经开始进入50kW、100kW,未来甚至可能接近MW级别。 AI数据中心正在从IT设施,逐渐变成“电力设施”。而从电网到GPU,中间需要经历大量电力转换:高压输电、变压器、UPS、PSU、AC/DC、DC/DC、VRM、GPU近端供电。每一次转换都会损失能量。当单个AI园区开始消耗GW级电力时,1%的效率提升,都可能对应巨大的经济价值。于是,功率半导体开始从配角变成核心瓶颈。 GaN因此开始大量进入AI服务器PSU、高频DC/DC、GPU VRM、电源模块。很多系统甚至开始出现“SiC + GaN”混搭。高压主干用SiC,高频末端用GaN。数据中心里,电网到数据中心的大功率高压部分,更适合SiC。服务器机架内部的高频供电,则更适合GaN。 未来整个功率半导体可能形成三层结构。低压低成本:硅MOSFET。高频高效率:GaN。高压大功率:SiC。 650V附近,是GaN与SiC正面竞争的区域。低于650V,GaN优势明显。高于650V,SiC优势越来越强。而650V附近,两边都能做。 同时,因为全球大量关键系统,都工作在400V~800V DC母线附近。 650V器件通常对应400V AC整流后、380V HVDC、48V架构上游、数据中心PSU、工业电源、光伏、OBC、AI服务器电源。 这是现代工业和数据中心最核心的电压区间之一。 于是竞争开始从单纯器件参数,变成系统成本、EMI、驱动复杂度、散热、良率、可靠性、客户验证、使用寿命、热循环、ppm失效率,以及长期供货能力。 这也是为什么功率半导体行业护城河极深。尤其SiC。SiC真正难的,不只是器件设计,而是晶圆生长、外延、缺陷控制、良率、高温可靠性。这些能力需要长期工艺积累。因此行业真正强势的玩家,往往都是十年以上沉淀出来的公司。不同公司的强项也不同。Wolfspeed强在材料。STM强在EV。Infineon强在模块与系统能力。onsemi强在汽车客户。Rohm强在可靠性。 GaN世界则还没有完全进入成熟阶段。目前Texas Instruments、Navitas Semiconductor、Infineon Technologies、Efficient Power Conversion都在不同方向推进GaN。其中TI可能长期被市场低估。因为真正的大客户最在意的,往往不是PPT参数,而是reliability、qualification和长期供货能力,而这些恰恰是TI最强的地方。 总的来说,AI正在提高整个系统里的“功率半导体含量”。未来AI基础设施的竞争,可能不只是算力竞争,还会是电力竞争、配电竞争、散热竞争、电源效率竞争。 过去半导体行业的核心是计算。未来十年,功率控制本身,可能会成为新的核心瓶颈之一。 免责声明:本人持有文章中提及资产,观点充满偏见,非投资建议,dyor
顯示更多
0
28
102
27
轉發到社區