註冊並分享邀請連結,可獲得影片播放與邀請獎勵。

檢索結果 CLOCK
CLOCK 貼吧
一個關鍵字就是一個貼吧,路徑全站唯一。
建立貼吧
用戶
未找到
包含 CLOCK 的搜尋結果
每次打开 US Debt Clock 这个网站,冲击感都很强 美国国债实时跳动,已经超过 39.29 万亿美元 ◦ 国债对 GDP 的比例已经高达 122.2% ◦ 每个美国纳税人负债超过 30 万美元 ◦ 美国政府每天光利息支出,就要十几亿美元 可以很直观地感受到,今天这个世界的底层,建立在「债务 + 印钞 + 滚续」之上
顯示更多
我的中午是你的晚安, 我的清晨是你的午安。 那就假裝時鐘已斷 — 對你說早安,陪你到夜半。 My noon is your good night so deep, My dawn is your afternoon's keep. So let's pretend the clock is gone, I'll say good morning till the night moves on.
顯示更多
🎂 誕生日限定作品-60%特惠中! 今晚12點準時下架絕版!!! 🎂 Birthday Special Edition - 60% discount ongoing! The out-of-print items will be completely removed from the store at 12 o'clock tonight!!!
顯示更多
0
13
5K
212
轉發到社區
我做了一个屏保时钟App:彼岸时钟。 屏保时钟是个很久远的品类。有Fliqlo那种二十年不变的翻页时钟,靠黑白极简取胜;有Bauhaus Clock,靠设计审美取胜。它们都很美,但美的方式是一样的:基于时钟的元素本身做设计。 我想做点不一样的,于是彼岸时钟诞生了。背景是Apple Maps 3D渲染的真实地标,每15分钟根据当前时段自动切换一个地方。 时差不再只是数字,它变成了地球上某个具体的景点。 这个App的起点是一个叫"对跖点"的概念。来源于我看到过 的一篇文章 对跖点就是地球上与你关于球心完全对称的那个点。有趣的地方在于,你们的时差恰好是12小时——你的正午是他的午夜,你的清晨是他的傍晚,像两个人背对背站在地球两端,却共享着同一颗太阳。 看到这个概念的时候觉得很有意思。但可惜大多数人的对跖点都在海里和山上,命中率很低。我就想,如果不要求精确对称,用早中晚这种粗粒度来辐射更多地标呢?于是这点就构成了彼岸时钟的核心理念:看见时差背后的风景。 500+全球地标,35座城市,清晨晌午傍晚全覆盖。每看到一个新地标自动加入集邮册,日积月累形成你看过的时差世界。 —————— 我的故事: 我作息很乱,经常弄到凌晨三四点。有次深夜扫过小组件,看到洛杉矶是晌午,突然想起小时候妈妈说的:你这是美国作息,人家那边现在是白天呢,看到小组件那个瞬间闪回了这段记忆,还挺奇妙的。 工作的时候我会把它点开挂着,就放在那转。不需要盯着看,就是有个地方在——偶尔抬头,埃菲尔铁塔的正午,或者悉尼歌剧院正在入夜。比纯黑的屏保多了点什么,但又不会分心。 最后送点永久会员码吧,enjoy: RP8RKPWFYTNWJN6LR6 MK7Y7XXNKANRYFMPYW F4J33JXJJ6YLKRMA3P E6JK6MMWX8JMWRFEJN N48WRMKM764WPEJ3XH TJNX78MHEP34MXYWRX XR334JM46WXF6E4EAE 7LKX84XMPM8RHYRW8R 6Y3P4PH6RMNXA7TA3X NRJ37LYXHRPWYX48XP
顯示更多
0
21
179
12
轉發到社區
华为τ scaling定律营销策略,无非是more than moore的广义摩尔定律的另一种说法而已 作为芯片架构师,我更感兴趣的,还是芯片密度提升,ppt上41%能耗提升和12.7%性能提升,到底是怎么实现的 看完了论文,感觉华为这次创新,本质上是用设计复杂度高 + 高制造成本 + 超前散热,一定程度弥补了工艺差距 ----------------- 1. 华为芯片堆叠带来的等效密度提升,是虚假宣传还是真的,是不是工艺突破?有没有实打实的好处? 等效密度提升的来源,是两片芯片用hybrid bonding技术绑在一起,投影面积理论上能减小一半,但第一代不是全芯片双层折叠,而是选择性折叠关键logic,所以只有大概53%的芯片面积实现了折叠(密度155->238),等到后面几代折叠面积会逐渐增大,到2030年接近全折叠(密度155->292) 这2026第一代等效密度从 2025 年 155 MTr/mm² 跳到 2026 年 238 MTr/mm²,时钟频率也提升了12.7%,功耗比提升41%,表面上看似乎和工艺突破没有什么区别,但有一点重要区别就是leakage power华为从头到尾没有提,只要工艺节点不变,gate leakage、junction leakage 不会因为 3D stacking 自动改善 2030年到2031年的等效密度突变,大概率是来自于2层堆叠到3层堆叠,正如2025到2026年的等效密度突变,时钟频率突变,来自单层到2层折叠 所以从leakage没提这个事来看,这个2031年等效1.4nm,和工艺节点上的突破没有联系。 本质上是用设计复杂度高 + 高成本 + 超前散热 + 超前部署advanced packaging,一定程度弥补了工艺差距 ----------- 那么这样看起来虚假的等效密度提升,有用处吗?好处在哪里? 有的,设计上topology折叠,原来要跑几毫米的水平走线,折叠后变成了几十微米。降低了super buffer/bus的长度,降低了clock tree的深度(clock depth -42%、clock wire -28%),clock skew也带来了改良(-25%),这对动态功耗的改善是实实在在的。部分critical path的缩短,也让时钟频率的上升更容易 所以ppt roadmap上performance的提升,从2025年到2026年上升了12.7%,大部分都是来自于时钟频率的上升(12.7%) 所以好处基本上是topology拆分电路逻辑设计上带来的提升 既然没有实质上的工艺提升,华为芯片堆叠带来等效密度提升的trade off代价在哪里? 三个代价:散热超前发展,设计复杂度高,制造成本变高 最大的代价就是热密度的同步上升,理论上logic on logic都是CPU execution发热最严重的区域,这部分折叠起来相当于功耗密度直接翻倍,但算上41% power efficiency改善,功耗密度仍只比非堆叠方案高40%左右。所以第一代只能对最关键的部分做折叠,大概只占全芯片面积的53%。 所以散热技术也被逼的超前发展,直接上毫米级的MEMS风扇,做micro-cooling fan。 另外的代价就是设计复杂度的变高,critical path的折叠,哪个部分的logic能折叠,折叠之后又会带来从前端到后端的巨大变化要推翻重来 现有的所有EDA工具也不可能支持3D topology,论文自己也承认,full-scale LogicFolding需要全新的3D-native EDA toolchain,把多层stacked dies当作单一连续设计实体处理。哪些logic能折叠、折叠后的inter-die timing closure怎么做,Physical Design(PD)也是难点 制造成本也会更高,被迫超前部署advanced packaging封装,1.5~2um的hybrid bonding + logic on logic都是很有挑战需要显著更高的成本 以前一层wafer做一次光刻;现在两层wafer分别做光刻再bonding,加上hybrid bonding的overlay控制(论文要求<0.5μm)、TSV、KOZ keep-out zone、冗余修复、良率乘法损失,每颗芯片的制造成本和测试成本都要显著上升 -------------------------- 2. Tau scaling这个说法,scaling的到底是什么,这个scaling技术路线是不是一次性的design topology红利?潜力如何?持续进步的空间在哪里? τ Scaling的核心主张是:用时间常数τ替代几何线宽作为全栈优化目标,在器件、电路、芯片、系统四个层级分别压缩特征延迟 公式本身没有任何新物理。"关注瓶颈延迟"是所有架构师都在做的事情。整个行业都知道互联RC是延迟瓶颈,TSMC每一代工艺都在用low-k dielectrics/semi-damascene等手段降RC。把一个众所周知的优化方向包装成"定律"是显然的营销宣传手段,本质是More than Moore的广义摩尔定律的另一种说法 抛开marketing,华为目前所谓RC delay的改善,本质上是芯片堆叠之后,topology距离缩短,让匹配的effective RC都变小,不是RC工艺常数 至于scaling的意思,是能持续发展的一条roadmap。这里的持续改善路径指的是,全芯片堆叠的层数越来越多,从25~30年的2层堆叠,到31年开始的3层堆叠,以后甚至会考虑4层堆叠 第一代折叠技术甚至不是全芯片双层折叠,而是选择性折叠关键logic,所以只有大概53%的芯片面积实现了折叠(密度155->238),等到后面几代折叠面积会逐渐增大,到2030年接近全折叠(密度155->292)。2031年的roadmap之所以会出现一个阶跃,就是因为那是从2层折叠到3层折叠的时间点。 但需要注意的是,这个scaling方法的边际效应是逐渐缩小的,折叠成双层的收益是100%,2->3层的收益就只有50%,如果2035年再从3->4层堆叠,收益就只有33%了 另外随着堆叠层数变高,上面说到的三个挑战,散热,设计复杂度,成本,都是越来越大 --------------------- 3. 华为的芯片堆叠,是不是TSMC/AMD已经有的hybrid bonding技术?华为做到的是cache on logic,cache on cache,还是logic on logic,logic on logic最大的散热问题是怎么解决的? 是已经有的技术没错,但同时也是把现有技术指标做到了领先也是真的,3D堆叠本身不是新技术,TSMC的hybrid bonding量产还是6um,华为论文给出Kirin 2026的hybrid bonding pitch是1.5μm 我在刚刚看到华为的堆叠消息之后,第一反应也是怀疑和AMD的3D V cache类似,它主要把 SRAM cache 叠在 已经有的L3 cache 区域上,通常会避免直接堆在最热的 CPU execution logic 上,就是避免散热问题,毕竟SRAM 的功耗密度和热点特性与high-activity logic 不一样,如果最热的logic on logic堆叠,散热恐怕会碰到困难 但看了更多数据之后,clock buffer -56%、clock depth -42%、clock wire -28%,这些只有在core内部的clock distribution被重构时才可能发生。纯SRAM stacking不会碰core内部的clock tree。另外如果只是cache on cache,大概率是不需要单独MEMS微型风扇额外散热的,证据普遍都指向logic on logic方式 华为这个技术的精妙之处在于,logic on logic 折叠之后热密度并没有翻倍,而是因为topology的好处,能耗下降了30%,这样热密度只上升了40~50% 而第一代没有完全把整个最热的execution logic 100%堆叠起来,论文也明确说selectively applied along key critical paths,只是大概53%有选择性关键路径会堆叠起来,可能颗粒度都没有那么好,只是IP堆叠在IP上,那么热密度上升也许能维持在20%以内 但这条道路继续前行,超前发展的散热就成了必然,现在是MEMS微型毫米级的主动散热风扇,紧贴处理器传导效率高,和华为手机一样,散热堆料特别足,而且技术领先同行。 以后怕是要把HBM7/8的微流道散热技术提前用起来了,毕竟HBM7/8要上24+层堆叠,华为很可能要在提前用上下个世代的散热技术了 ------------------------- 4. 从架构角度来说,最重要的问题,华为41%的power efficiency(能耗比)提升,到底是怎么实现的?为什么AMD的3D V cache没有这么大的提升? 首先确定41%的定义。论文只说"SoC performance-core power efficiency improved by 41%",没有给出benchmark名称、Voltage/Freq点、温度条件、功耗边界。但PPT roadmap上有一个关键线索:ISO-Power Performance的数字,2025年是2.75,2026年是3.1,提升12.7% 这个时钟频率提升12.7%完全一致,可以理解为,同功耗的性能提升是12.7%,绝大部分是时钟频率提升带来的 至于能耗比上优化的猜测是,LogicFolding缩短critical path → 在固定Vdd下Fmax从2.75GHz提升到3.1GHz → 这意味着在原来的2.75GHz频率下,有了约12.7%的timing headroom → 这个空间在iso-performance模式下可以换成更低的Vdd 另外的能耗比的提升,可能也来自于电路折叠之后,cache hit latency的下降。从业界经验来看,一般L2/L3 cache hit latency下降10%,CPU整体性能会有至少5%的提升 ppt里显示SRAM latency下降30%,估计会有一部分转化为cache hit latency的下降 AMD的3D V cache没有这么大的提升,主要是因为AMD的底层logic die并没有重新设计,3D cache的延迟latency不仅没有减小反而加大,只是增加了cache大小,收益不如latency下降那么明显。 另一方面,clock skew的下降,critical路径变短,造成电路timing变好,意味着华为可以使用更低的vdd(猜测甚至能低7~8%),以及路径缩短所带来的RC的下降(考虑到clock buffer -56%、wire -28%、SRAM pJ/bit -24%这些数字,比如C_eff下降10~15%合理),再加上clock tree的整体缩短和下降,确实是有可能在部分Voltage/Freq点做到同性能下,做到30%的功耗下降的,而30%的功耗下降换算过来就是41%的power efficiency 对比苹果和高通,每一代手机芯片在iso-power下单核性能一般提升10-20%,iso-performance下功耗一般降30-40%,这是V/F曲线的特性决定的,所以从经验上来说,数字是对的上的。 所以这个power efficiency(能耗比)的提升,从现有的数字上来说可以从topology推导出来是合理的,可能真的和工艺节点没有太大关系 ---------------------------- 5. 这个技术路线有没有可复制性,其他家会不会效仿? 短期内不会大规模效仿,因为性价比和风险收益比来说不好。长期来看,这个方向所有人都在走,只是名字不一样 华为做LogicFolding的根本驱动力是制裁,工艺节点被卡在7nm,只能在封装,散热,和设计层面想办法弥补。华为也为此付出了不小的代价:散热成本,设计复杂度,以及制造成本更高(包括良率)。这是一个被逼出来的路线,不是一个自然选择 其他玩家在用TSMC就能做到正常的经济迭代,是没有必要冒着这个风险,去超前迭代散热技术和设计复杂度的 长期来看,Intel的Foveros、TSMC的SoIC、AMD的MI300的3D stacking都在朝同一个方向走。如果继续追最先进节点的经济性持续恶化,那么"固定一个成熟节点+3D topology optimization"的路线会越来越有吸引力 散热方面,MEMS微型风扇和微流道也会成为未来HBM散热的主流 ------------------- 总结一下,华为这次的创新,绝对是值得尊重的,在制裁环境下,用极高的设计复杂度和成本,在一个被锁定的工艺节点上大胆重新设计,榨出了一次大的topology红利,虽然它有天花板。每多加一层的边际收益递减(堆叠1->2层, 2->3层, 3->4层,提升百分比变小),leakage无法解决,散热越来越难,3D EDA工具链更是全新的挑战。 但这个Tau scaling不是一条可以走十年的指数增长路径,每次爬完一个台阶,下一个台阶更难爬,而且台阶更矮收益更小,华为以后想缩小差距,还得再想想靠什么其他的路线
顯示更多
0
175
1.8K
486
轉發到社區
GTC 2026 preview: 从Groq生态位看AI异构推理(Heterogeneous Inference)新时代 Groq的SRAM路线的生态位在哪里?SRAM会不会替代HBM路线? Nvidia如何整合groq到现有的产品线?是技术整合还是产品线整合?收购之后会给groq LPU产品带来怎样的升级? 这里尝试从基本原理出发去拼凑一个逻辑链 —-------------------------------------------- 先从first principal说说groq的设计哲学开始:groq本质上是一个compiler first走到极致的路线而不是SRAM first路线,SRAM路线只是副产品 相对于CPU针对通用workload的设计不同,AI 推理workload的特征在于确定性(deterministic)更高,基本没有data-dependent branching,tensor shape固定,memory access pattern确定 当Groq带着这个新特征重新审视 hardware-software interface,去问"什么应该在编译时做,什么应该在运行时做"。对于 AI 推理这个 workload,答案是:几乎一切都可以在编译时做 这就是Groq最疯狂而独特的地方:完全确定性编译器(fully deterministic compiler),compile精确到每个时钟周期,完全精确带来极致的效率。在编译的时候就需要考虑到硬件在运行的每个时刻的所有状态,扮演一个全知全能的上帝,就可以避免硬件资源的浪费,而要做到这一点,必须要做到极致的确定性,也就是说,LPU里每一个计算,访问存储,通信的延迟,都需要精确到clock cycle,这对compiler来说是非常复杂的 AI workload更高的确定性,以及groq的完全确定性编译器优先路线很自然的避免了VLIW的弱点(内存行为以及branch行为不可预测),放大了VLIW的优点。那么下一步要提高效率和并行度,VLIW 式的编码格式就是一个自然推论—既然编译器要控制每个功能单元每个 cycle 做什么,那指令格式当然就是一个宽指令里打包多个 指令会得到更高效率,这就是 VLIW 在groq的芯片里,不做乱序执行/speculation,大幅简化硬件(instruction dispatch仅占<3%面积),把复杂度移到静态compiler上,这正是VLIW思想的精髓 既然要让编译器做确定性的 cycle-accurate 调度,那么硬件里所有不确定的因素都要消除,比如arbiter,crossbar, replay,这些有自主算法在运行时决策的部分都砍掉 memory latency 也必须是确定的,所以一切 cache 和 DRAM都是要砍掉的,cache也要换成scratchpad SRAM,因为cache replacement 策略是runtime决策的,不确定,必须换成软件控制的scratchpad,地址映射完全由compiler控制,保证确定性 通信也必须精确到cycle,发送和接收指令就是软件协调好执行的时刻,并没有传统的“我要发一个包给你,请分配好内存”这类操作,而是同步地根据一份时间表严格执行SRAM 的分配和收发操作,这个时间表是compiler已经决定好的,硬件只需要执行就行了 完全确定性compiler也带来了芯片节点之间互联通信overhead的极低延迟,这可能是groq确定性架构最被忽视的最大优势,毕竟传统互联架构里Packet Routing、Arbiter Contention 和 Buffer Queuing,这些是延迟波动的重灾区 这就是为什么说,groq其实并不是一个native SRAM first的技术路线,也不完全算是VLIW first的技术路线,而是compiler first的技术路线,更准确的说,完全确定性compiler是整个groq架构的核心 只是因为确定性compiler的原因,所以在核心decode阶段无法使用HBM/DRAM带来的不确定性,SRAM only成为了必然的选择。这也是为什么说Groq更像是compiler first路线。 —-------------------------------------------- groq被收购之后最直觉的第一反应: groq确定性compiler技术路线有没有可能用在Nvidia现在的GPU+HBM体系上? 不能 原因有两个: 1. HBM/DRAM的物理特性和带宽优化决定了它天生带有不可预测的延迟,无法和deterministic compiler兼容 2. Nvidia的SIMT路线和Groq的VLIW/compiler first的哲学本质是有冲突的 DRAM为什么充满了不确定性 1.refresh操作每隔一段时间tREFI就会刷新一次cell上的电量,阻断bank访问,这是由DRAM cell物理特性决定的。而这个操作会随着温度的变化,refresh的频率也会变化 2. 为了最大化利用DRAM带宽,controller会做很多优化,最典型的是batch scheduling:把同一个page的traffic都放在一起减少page miss,同时让读写尽可能接触更多的bank,以及尽可能减少read和write switching 这些动态优化都是real time发生的,基本不具备可预测性 3. system上对DRAM的优化,比如bank address hashing,让compiler静态提前定位某段data难度太大,落实cycle确定性的复杂度太高 其实这些不确定性也是能解决的,代价就是放弃大部分的优化策略,大幅降低DRAM的efficiency和利用率。groq自己其实也对这方面做过探索,他们曾经做过一个确定性DRAM的专利,但工程上的实现是不现实的,这也是groq选择SRAM-only的核心原因之一。 所以确定性compiler技术路线用在DRAM上不是一个yes or no的问题,而是这不是一个好的选择,因为这意味着HBM的efficiency和BW都要大打折扣,而且是结构性无法避免的损失。 这几乎意味着要用compiler去重写一个完整的memory controller,因为确定性dram本质上是compiler software defined memory controller,这个SW controller会非常难做,复杂度极高,而且每一代memory迭代都要大幅更新compiler里的结构,在工程资源上是不现实的。而且每一代DRAM,每一家DRAM 供货商都需要调试 ,这在验证和validation上是一个nightmare --------- 为什么Nvidia的SIMT路线和Groq的VLIW/compiler first的哲学本质是有冲突的 这两套体系对同一个问题给出了相反的回答:运行时的不确定性,Groq是compiler阶段直接消灭所有不确定性,Nvidia选择了用warp switching去隐藏不可预测的延迟 Nvidia GPU 建立在 SIMT(单指令多线程)和硬件层线程调度器(Warp Scheduler)上。当一个warp因为访存而stall的时候,硬件warp scheduler立刻切换到另一个ready的warp继续执行,把stall的延迟藏在其他warp的计算里。这整套机制的前提恰恰是:延迟是不可预测的,所以需要足够多的并发线程来统计性地填满pipeline 如果要用确定性的编译器去接管,等于把 Nvidia GPU 里面最核心的硬件调度单元全盘废弃:如果你不需要多warp轮转,你也不需要那么大的register file 实际在历史上,AMD从TeraScale(VLIW)到GCN(scalar SIMT)的架构转型,正是GPU领域一次大规模的VLIW→SIMT迁移:当workload变得不够可预测时,VLIW的compiler负担太重,应该把调度权还给硬件 所以在原架构上引入确定性compiler应用到Nvidia现有的技术路线,是很难融合。这不是compiler能不能改的问题,是两套架构从第一性原理上就走了相反的方向。 所以说,Groq在Nvidia的唯一出路,就是独立的面向low latency decode的专用产品。 —-------------------------------------------- Nvidia收购Groq之后,就引出了第二个问题: Nvidia会给Groq带来什么样的新提升? 那么首先看看groq的瓶颈在哪里,简单的说 1. SRAM容量太小,无法容下大模型的参数量+kv cache 2. 推理decode主要瓶颈不在SRAM 80T/s的速度而在于interconnect延迟(占80%) 3. 对于Prefill这样的compute bound task速度较慢 groq的主要架构基本上是17~18年就完成了,那是CNN的时代,架构也是以CNN/LSTM为主要的target,当时测试benchmark都是ResNet50,SRAM容量是绰绰有余的 但是进入LLM时代,单个TSP计算卡230MB SRAM就显得不够看了,一个LLAMA 70B模型的参数量占内存就相当于3000个ResNet50,再加上因为上下文long context日益膨胀的KV cache,scale out就成了唯一的出路 于是一个70B模型的推理就需要576卡的集群,采用16个Pipeline并行 (PP)和36个tensor 并行 (TP),80层的大模型切成16级流水pipeline串行,每级横向5层MLP分给36个卡并行推理 16级流水pipeline串行(PP),每级流水到下级流水的通信overhead延迟就要 X16。实测中PP和TP之间的通信延迟占据了80%以上的总延迟,特别是PP延迟,占据了50%以上的总延迟,通信延迟成为了主要瓶颈 Groq计算卡对decode阶段的memory bound很友好,但是片上巨大的SRAM也挤压了compute的面积,导致prefill阶段耗时很高。融入Nvidia产品线之后,Groq产品完全可以扬长避短,只做自己擅长的decode部分,避免prefill阶段的短板 Nvidia带来的最重要的提升,可能是通过工艺的提升,以及hybrid bonding技术(类似AMD 3D V-Cache),扩大Groq LPU SRAM的容量,比如光是14nm到3nm的工艺提升,SRAM就能从230MB扩大到500MB,如果以后引入3D SRAM,容量还能翻倍 SRAM变大之后,原来576个LPU能完成的70B模型推理,现在只需要256个LPU了。猜测也许可以用32个tensor并行 X 8 个流水pipeline串行,pipeline interconnect延迟能直接减半。 所以Nvidia能带来的主要提升可能是,通过扩大SRAM的容量,减少scale out卡数,从而减少通信延迟时间,提高token速度 —-------------------------------------------- Groq的SRAM路线专用产品进入Nvidia产品线,引出了第三个问题: SRAM路线会颠覆HBM路线吗? 不会。 SRAM路线本质上是用十倍的成本换几倍的速度,只能适用于一部分愿意为低延迟付出高额溢价的市场。AI硬件市场的主旋律仍然是比拼TCO(total cost ownership)成本 做一个简单的成本核算就清楚了 以LLAMA 70B模型为例,算上KV cache,Groq需要576张计算卡组成集群。Groq计算卡零售价大约是每颗2万美元(groq CEO说实际售价远低于,那就按2000美元算),576卡就是超过110万美元的硬件成本。而2张H100就能跑同样的模型,成本不到10万美元。成本差距是一个数量级。 Groq于是转而卖token服务,Groq的API定价确实便宜,但这是因为两个原因叠加: 第一,Nvidia的GPU云服务商通常在硬件成本上加倍的margin卖出去; 第二,Groq自己是在亏钱运营的。2025年全年,Groq用LPU做大模型推理、对外卖API的业务,营收大约4000万美元,成本却是6000万美元,毛利-50%。Groq的便宜token价格不是因为SRAM的经济性更好,而是因为VC在补贴。 那么有人愿意为速度付溢价吗? 有。 Claude Opus 4.6 Fast模式就是一个很好的市场信号:输出速度提升2.5倍,定价直接从$5/$25涨到$30/$150 per million tokens,6倍的价格,估计是牺牲了batch带来的速度提升。 所以这部分市场是真实存在的,SRAM路线在这里有它的生态位。 但这个生态位有多大?要看ML workload的分类。不同的workload对硬件的侧重点要求差距巨大: 推理的Prefill阶段对带宽要求低但算力要求高,推理decode阶段则是反过来。R&R(Ranking & Recommendation)对算力和带宽要求都不高但对存储的容量要求巨高 (见附图) 对延迟敏感的推理workload,decode阶段对Memory bandwidth要求高,是SRAM路线的优势领域(图中红色线),主要是real time/interactive LLM:chat、copilot、agent这类需要实时响应的场景。 特别是reasoning model,SRAM路线带来的极致体验是很夸张的:H100要两三分钟跑完一reasoning,cerebras十秒就搞定了 这部分注重极致推理速度的市场有多大,我暂时没有找到一个详尽的调研,看到一个Hyperscaler的说法目前是10%左右 但是agentic flow workload,常用的agentic框架做profiling,比如SWE-Agent, LangChain, Toolformer,CPU最长可以占到90%的E2E端到端延迟,throughput瓶颈也更多的卡在CPU, 这些加起来通常远大于单次decode的延迟,SRAM路线速度优势被削弱。 而更大体量的workload:batch inference、offline processing、ranking、recommendation对延迟没有那么敏感,throughput和cost per token才是唯一的指标。这部分市场SRAM路线完全没有成本上的竞争力 H100/B200相当于大巴车,装的人多(batch processing),每个人的车票钱很便宜,但是慢悠悠。 Groq/cerebras相当于是法拉利,极致的速度体验,但是装的人少,人均票价是大巴车十倍甚至以上。 长期来看,SRAM的成本劣势是结构性的,不会随时间收敛。6T SRAM cell天然比1T1C DRAM cell贵,这是物理决定的,和工艺无关。而且SRAM scaling已经慢了下来,从N5到N3E,SRAM单元面积几乎没有缩小 即便是速度优势,SRAM路线的缺陷在于访问速度已经接近工艺极限,很难跨代提升。特别是HBM的速度每代都在指数上升的情况下,SRAM 80T/s的速度优势很难长久维持。十年前这个路线刚刚兴起的时候,SRAM速度比HBM快了两个数量级简直是降维打击,但现在的速度差已经不到一个数量级(Rubin HBM4 22TB/s),再过十年,两者的速度可能拉不开差距了。 所以结论很清楚:SRAM不会颠覆HBM,但它在低延迟、低batch、实时推理这个细分市场里有不可替代的价值。但长远来看,随着HBM速度指数上升的背景下,SRAM优势也会逐渐慢慢越小。 —-------------------------------------------- 写到这里,也许我们可以把这些碎片拼凑出Nvidia收购Groq之后计划的下一步雏形: 异构推理的新时代开启了 以后的推理workload本身已经分化,无法再用单一架构的最优点覆盖,体系结构最重要的是tradeoff,是尺度范围。一个架构形态在合理的tradeoff以及特定workload下可能惊为天人,用多个架构形态去迎合不同种类的workload,就是异构计算的思想 2026 GTC的最大主题,就是异构推理的系统化。推理不会由单一硬件统一完成,而会被拆成 几个部分: 控制和调度/agent runtime层交给Vera CPU 针对long context的prefill交给CPX (Content Phase aXcelerator,一个专门为prefill的compute bound特性设计的计算模块) 小模型/低延迟/low batch decode交给SRAM路线的Groq LPU,256块LPU集群 高吞吐/高并发batch decode,HBM GPU仍然是主力 以及可能会被忽略的ICMS:inference context memory storage, kv cache已经是核心基础设施,以前的异构更多是计算异构,现在的异构已然延申到了缓存异构memory hierachy heterogenity(似乎改名成了CMX: context memory storage) LPU和GPU的分工,更可能成为 inference stack 里两个不同的tier,小模型/低延迟/low batch都交给LPU,长context/high batch交给HBM GPU 目前CPX什么方式和LPU/GPU连接还尚不清楚,整个工作流程大概是,CPU做控制和调度,CPX Prefill 跑完得到几十 GB 的 KV Cache, 分配到 Groq LPU阵列SRAM,或者分配到HBM GPU,开启Decode流程 其实还有一种更大胆的猜想:如果引入speculative decoding,那么LPU完全可以跑通常尺寸较小的草稿模型,在LPU上速度极快,HBM GPU作为主力去验证草稿模型即可,这样的异构推理结构,可以让token rate大大加速,在某些场景下翻倍也是没问题的(比如代码任务模式固定,小模型很容易猜对语法,所以加速效果很好) 当 Nvidia 的眼光越过GPU,走向整个 Agentic 流程的系统级优化时,追赶它的难度已经不在一个单一维度了。以前 Nvidia 步子迈得大,靠的是 GPU 架构和参数的单点暴力跃升;而现在,随着CPX,LPU,ICMS加入异构推理,它是从“数据中心即一台计算系统”的系统视角出发,从Agentic flow的角度做底层的异构编排。 无论是系统的复杂度,还是软件栈的工作量(Dynamo/ICMS/CMX),Nvidia 迈出的这一大步,直接把竞争门槛从“做出一颗好芯片”拉高到了“定义一整套异构系统来做普适加速计算解决方案“ —------------------------------------------------------- 不由得感慨,每一次计算范式的改变,半导体都会带来一波新的startup热潮,但当软件/应用形态逐渐收敛,最后还是变成了大厂通过收购把功能做大做全,参数做的更高,系统深度整合的更好更全面,成本更低,功耗和跑分更优秀,让startup慢慢失去独立生存的空间 比如移动互联网时代早期,也是群雄并起,有做AP应用处理器,独立基带芯片的,ISP的,GPU的各种小公司。但最后的赢家,都是从到后来把GPU,ISP,modem全都做进SoC,并且完成系统级整合的异构计算平台。 苹果收购PA semi的CPU,英飞凌的modem,掏空Imagination的GPU;高通收购ATI的mGPU,Atheros的Wifi,Nuvia的CPU,CSR的蓝牙/DSP,都是典型例子 异构推理的复杂度越来越高,能做系统级整合的公司会更有优势,这和移动SoC时代的逻辑一模一样。AI时代nvidia收购arm(失败),收购Mellanox,收购groq,只是这个新历史轮回的开始
顯示更多
0
31
292
78
轉發到社區
转发提示词:风格人物+精神投射 by 虎小象 @hx831126 不是单纯的Pixar风格,有点Designer Toy 风格 让模型帮我加入了人物戏剧夸张的身形和表情「修长身形,大脚,块状的结构」 以此慢慢的 让模型延展其他人物。 提示词: A high-resolution vertical Pixar-style 3D character illustration. Main character: Salvador Dalí — depicted as a tall, slim, and slightly exaggerated Pixar-style 3D character. Wearing a classic blue shirt, yellow tie, high-waisted plaid trousers with suspenders, and leather shoes. His iconic long upturned mustache, slick black hair, sharply arched eyebrows, and slightly eccentric posture. Stands with chest out, one hand on hip, head tilted slightly back in his typical theatrical flair. Background: Flat, clean yellow background with subtle surface texture. Strong sunlight from top-left casts a distinct and enlarged shadow on the wall behind him. Key Concept – Shadow as spiritual projection: The shadow cast behind him does **not** mirror his body shape. Instead, it takes the form of one of his most iconic artworks — a surreal melted clock with long dripping arms, inspired by “The Persistence of Memory”. The melted clock shadow is positioned diagonally, starting from his shoulder, stretching wide and low across the yellow wall, surreal and fluid, yet unmistakably symbolic. This shadow is **Dalí’s legacy made visible** — a symbolic extension of his identity through time, dream, and visual distortion. Lighting & Rendering: Pixar-like rendering with detailed but stylized textures. Use subtle filmic grain, soft shadows, and warm color grading. Subtle sparkles or light speckles inside the shadow to evoke dreamlike texture. Typography (top-left corner): “Salvador Dalí” in minimalist black sans-serif font, “Dalí” bolded.
顯示更多
0
18
288
55
轉發到社區
@cloakmk 不折腾就不亏,越折腾亏的越多,这还玩个锤子
@cloakmk 6万附近支撑很强,顶多来一个二探吧