打开推和朋友圈,发现出现在香港活动上的人又换了一批,我们这一批曾经的新人也竟成了「上一代」,和他们闲聊发现多半和我一样岁月静好了,突然没有几年前的冲劲。
真好啊,新人辈出,兴兴向荣,这个圈子还是有活跃度的,没死。
顯示更多
华尔街日报今天这篇文章不错。人工智能领域的高管如何向子女描述未来的职业前景。
一句话总结:AI领袖们普遍不建议孩子过度追求当下的技术技能,而是强调适应性、批判性思维、文科教育(通才能力)以及人类独有的情感与责任感。
观点一:当下的具体技术技能(Technical Skills)保质期极短(甚至不到两年),未来的核心竞争力在于应对变化的敏捷性(Agility)。
Caroline Hanke (SAP) 指出,与其纠结于现在的编程技术,不如培养批判性思维、适应性和伦理判断力。
教育的重点应从“掌握工具”转向“适应新工具”和“判断工具的使用”。
观点二:在AI时代,传统的文科教育(Liberal Arts)比以往任何时候都重要,因为通过自然语言与AI交互需要深厚的元认知能力。
Jaime Teevan (Microsoft) 强调,以前操作电脑是决定性的(按按钮->出结果),现在是基于自然语言的意图表达。这要求使用者具备批判性思维、提供语境和挑战AI结果的能力(即元认知)。
Ethan Mollick (Wharton) 认为通才(Generalist)将是赢家。AI可以填补技能短板,因此拥有广泛技能组合的人(如既懂医学又懂人际沟通)更有优势。
与其成为单一领域的专才,不如成为能够整合多种知识并在AI辅助下工作的“超级通才”。
观点三:AI无法承担责任,也无法替代真正的人际连接。
Daniela Amodei (Anthropic) 认为,随着AI接管工作,人类品质(同理心、善良、沟通能力)的溢价会越来越高。人类本质上渴望与其他人类共处。
Jaime Teevan 指出,AI可以给出建议,但不能承担责任(Accountability)。像法律、会计这种需要对决策后果负责的职业,依然需要人类来做最终判断(Passing Judgment)。
未来的工作重心将从“执行任务”转移到“承担后果”和“提供情感价值”。
观点四:避开纯数字化的内卷,转向原子世界(能源、医疗)和社会服务领域。
Manny Medina ( 看好能源(特别是核能)和医疗保健。无论是为了驱动AI本身(能源需求),还是解决人类疾病(癌症治疗),这些都是硬需求。
鉴于AI发展的不平衡,致力于解决社会不平等(帮助被AI抛下的人群)和环境问题(海洋污染)也将是有意义且有前景的职业路径。
最后:孩子拥有一张“白纸”,他们不需要像成年人那样去“重塑”旧观念,这是一种优势。家长们的焦虑往往源于自身的旧经验与新世界的冲突,而孩子们是AI原住民。
不要把上一代的恐惧投射给孩子,鼓励他们去玩、去实验,而不是仅仅作为使用者。
AI高管们给子女的建议揭示了一个反直觉的趋势:在一个高度技术化的未来,最不值钱的可能是纯粹的技术执行力,而最值钱的是最“复古”的人类特质——对他人的共情、对复杂概念的哲学思考(文科)、对物理世界的改造(能源/医疗)以及对决策后果的承担(责任)。教育策略应从“学习如何像机器一样高效工作”转变为“学习如何做在大机器时代中独一无二的人”。
顯示更多
蒋介石国民党在1937年的淞沪会战就被打残了!不仅仅是老蒋的德械师中央军,就连地方军阀,比如桂军广西人也是元气大伤!桂军最精锐的老兵损失惨重!
蒋介石就是踏马的纯纯大傻逼!
上海这种地方根本不适合打阵地战!老蒋是根本不管诸夏武士的死活,把他们当炮灰用!日本是海陆空三军出动,中国这边基本只有陆军!而且最要命的是,上海这个地本来就是出海口,挖不了战壕,里面全是水!这还打个屁!武器不行,训练不行,就连战壕工事也不行,纯粹是以血肉之躯硬拼!国军伤亡三十万以上,很多部队基层军官直接打没了!
可惜了,从辛亥革命到淞沪会战,民国20多年时间培养的新一代年轻人,从小不用向皇上下跪磕头的一代人,真正的第一代诸夏武士,竟然以这种惨烈的方式结束了自己的生命!蒋介石万死难赎其罪!蒋介石就是踏马的大傻逼,大罪人!!!
顯示更多
写在英伟达(NVIDIA)下周财报之前
--- 英伟达对客户进行“直接提价”以及“变相提价(通过系统级捆绑与产品架构重构)”情况分析。
英伟达利用其在AI算力市场近80%的绝对垄断地位,其提价策略已经从传统的“单纯调高芯片零售价”演变为“通过重塑算力采购规则和网络捆绑进行价值最大化回收”。
一、 英伟达的“直接提价”与“变相提价”策略
1. 直接提价(芯片与消费级层面)
消费级GPU直接提价:针对消费端旗舰显卡(如 RTX 5090),由于新一代 GDDR7 显存成本大幅攀升,英伟达近期已正式向其 AIC 合作伙伴提价 300 美元(约合 2000 元人民币),这导致消费级高端显卡的实际零售价在渠道端被进一步推高。
数据中心芯片均价(ASP)的大幅上调:新一代 Blackwell 架构芯片的单体售价较上一代 Hopper 显著提高。市场预计,即使是入门级的 B100,其平均售价(ASP)也在 3.0 万到 3.5 万美元之间(已与上一代旗舰 H100 持平);而包含 Grace CPU 和双 B200 GPU 的高端 GB200 超级芯片,单体售价则直奔 6.0 万至 7.0 万美元。
2. 变相提价(系统化、网络捆绑、产业链利润回收)
系统级打包销售(System Bundling):这是英伟达最核心的“变相提变/溢价”手段。英伟达正加速从“卖 GPU 芯片”向“卖整体机柜解决方案”转型。以 GB200 NVL72 平台为例,其单套整机柜的售价高达 280 万至 340 万美元,而推理优化的 GB300 NVL72 售价则攀升至 600 万至 650 万美元。客户在购买时无法单独采购裸 GPU 芯片,必须同时为机柜内附带的 NVLink 交换机系统、Spectrum-X 以太网卡、液冷系统等组件高额买单。
压缩代工厂空间以回收产业链利润:在未来的 Vera Rubin 架构中,英伟达计划直接向客户交付预建好的计算托盘(Trays),这一核心部件将占到服务器总物料清单(BOM)成本的约 90%。这实际上剥夺了服务器代工厂(如戴尔、超微等)的设计和配套件溢价空间,变相将整个算力产业链的所有利润全部回收到英伟达手中。
网络设备的交叉提价施压:目前美国司法部(DOJ)的反垄断调查以及中国国家市场监督管理总局(SAMR)的审查,其核心指控就在于英伟达涉嫌“如果客户在购买 GPU 时选择竞争对手(如 AMD、Intel)的芯片,英伟达就会对其网络设备进行惩罚性加价或不予支持”,以此变相强迫客户购买整套英伟达方案。
二、 资本市场的相关分析
毛利率与 ASP 计入:华尔街卖方模型已将 2026 财年英伟达数据中心混合 GPU 的 ASP 假设从 2.6 万美元直接上调到了 3.3 万美元。华尔街对英伟达下周财报维持在 75% 附近的极高非 GAAP 毛利率预期,也是基于这一提价能力已充分兑现的前提 。
整机柜的溢价定价:富国银行(Wells Fargo)将英伟达目标价上调至 315 美元,其核心框架就是建立在“300 万美元级别整机柜(GB200/GB300 NVL72)”的大规模出货假设之上。也就是说,短期内系统打包销售带来的高客单价已经没有多余的“超预期未定价空间”。如果下周财报中管理层无法证明整机柜出货的毛利率能够持续坚守在 75% 以上,股价甚至会因此回调 。
从更长远的算力网络生命周期来看,未来可能还有更极端的变相提价和系统价值膨胀(Dollar Content Expansion):
当算力集群从目前的 GB300 世代向未来的 Rubin Ultra 世代演进时,网络组件和芯片整合的系统打包价值将实现大幅跨越。
也就是说,市场目前仅定价了 Blackwell 世代的系统级提价,但对于 Rubin 世代通过深度系统集成、在整个数据中心 BOM 成本中榨取高达 90% 绝对利润的能力,并未给予完全的溢价体现。
总结而言,英伟达由于显存成本上涨带来的消费级 GPU 直接涨价,以及靠网络套件进行的数据中心系统级变相提价,市场短期已经被计入得非常充分,但长期来看,仍有相当的空间。
免责声明:本人持有文章中提及资产,观点充满偏见,非投资建议,dyor
顯示更多
邓聿文认为,中共“元老政治”经历了四个阶段,是哪四个阶段呢?
请下载2026年第2期《中国民主季刊》专论文章:邓聿文《从“打天下”到“守成一代”:中共元老政治的结构性衰落及其当代意义》:
中共“元老政治”的兴衰轨迹:
第一阶段(1978–1992),可称为巅峰期,以邓小平、陈云、叶剑英、薄一波等为代表的第一代元老依靠革命功绩、军队控制、人事网络和历史叙事权,牢牢把握对最高决策的裁决权。这一时期,元老不仅能在重大路线问题上定向(如确立改革开放),还可以在政治危机中直接废立最高领导人(1980 年胡耀邦上任,1987 年胡耀邦下台,1989 年赵紫阳被免职)。邓小平虽不担任总书记或国家主席,却能凭借军委主席和最高威望地位主导党和国家方向。这是元老政治的绝对巅峰。
第二阶段(1993–2002),可称为余威期,随着邓、陈、叶等人相继去世,第一代元老的影响力虽然衰减,但薄一波、万里等老一代革命元勋的余威还在。与此同时,姚依林、宋平等做过政治局常委的老同志接过“退休影响力”的位置,他们已不再具有“打天下”一代那种革命合法性,虽仍能对高层人事安排和政策方向施加一定影响,但这种影响主要表现为协商、建议和幕后运作,而非邓小平时代那种拥有最终裁决权的元老政治。特别是这一时期,中共中央通过1992 年废止中顾委,将老同志影响制度化的平台取消,标志着元老政治的制度性弱化开始。
第三阶段(2003–2012),可称为延续影响期,这一时期,传统意义上的第一代革命元老已基本退出政治舞台,但以江泽民为代表的“新元老”,在退位后对胡锦涛时期乃至习近平前期的高层人事和政治运作仍保持了相当影响力。与此同时,宋平等老干部仍保有一定象征性权威。与邓小平时代相比,这种影响已不再建立在革命功绩和最高裁决权之上,而更多依赖退休最高领导人的资历余威、派系纽带和人事残余,例如所谓江派。它仍能影响高层权力分配,却已难以公开、直接地决定最高政治路线。
第四阶段(2013 年至今),可称为“边缘与象征化时期”。 习近平上台后前两年,人事和政策还受到退休元老的干扰,但他通过反腐运动、政治整肃、军队改革和组织权力上收,大幅压缩了他们影响政治的空间。军队系统整编切断了既有军事人脉,干部任免高度集中于核心手中,舆论与意识形态控制也使老同志公开发声几乎失去现实渠道。在这一格局下,胡锦涛、温家宝、曾庆红等退休高层在现实权力结构中已明显边缘化,其政治功能主要限于礼仪性出席重大活动和象征性存在。所谓“元老反习”的传言,更多是对历史经验的想象性投射,而非现实政治的再现。
------
毛泽东去世后的“元老政治”是怎么兴起的?有哪些特点?对后来改革开放有什么影响?“元老政治”又是如何发展的?“元老政治”是怎么解体的?
请下载2026年第2期《中国民主季刊》专论文章:《从“打天下”到“守成一代”:中共元老政治的结构性衰落及其当代意义》:
------
感谢您支持《中国民主季刊》!
我们的季刊免费向公众开放,您的下载、传播和阅读就是对我们的最大支持和鼓励。感谢读者!
《中国民主季刊》往期下载:
欢迎订阅我刊的Substack专栏:
顯示更多
A股热点方向预测:
方向一:国产算力芯片与AI算力链
在国产大模型能力突破临界点的背景下,DeepSeek V4、GLM-5等国内模型Agent能力快速进阶,真实堆高国内算力需求。同时国内大模型具备算法优化工程优势,整体推理算力成本低于海外,高性价比成功争夺海外上一代大模型市场份额。国产算力黄金年代已开启,建议关注具备算力租赁、服务器、芯片全产业链龙头。
方向二:光模块/CPO先进封装
1.6T光模块是2026年最大增量赛道,DPC陶瓷基板成为最紧缺材料。同时随着AI芯片向CoWoP先进封装迭代,mSAP工艺带来铜箔、感光干膜等材料爆发。光模块及上游材料是当前最具确定性的业绩兑现方向。
方向三:商业航天与卫星互联网
上海商业航天海上发射公司成立标志着产业链进入实质落地阶段。2026年国内商业航天有望迎来密集催化,千帆星座持续组网,卫星互联网进入批量化生产阶段。产业链从概念转向业绩,建议关注实质性受益标的。
顯示更多
🚨在长达46年未新建任何原铝冶炼厂之后,美国将在俄克拉荷马州伊诺拉市启动一座新冶炼厂的建设。
世纪铝业和阿联酋环球铝业计划每年生产75万吨原铝,这将使美国目前剩余四家冶炼厂的总产量(约68万吨)翻一番以上。
这样规模的冶炼厂每年耗电约11太瓦时(TWh),相当于纳什维尔这样规模的城市的用电量,因为生产一吨原铝需要约14兆瓦时(MWh)的连续电解。
1980年,美国共有33家冶炼厂,总产量为460万吨。
📌这是美国正在掀起一场更宏大的、以“国家安全和硬核制造”为导向的美国制造业大回流与工业基地重塑。
这背后意味着美国在经济、政治和地缘战略上的四个重大转向:
✅工业版图正在向“阳光带”南移
传统意义上的美国“铁锈带”指的是五大湖区和东北部(如宾夕法尼亚、俄亥俄、密歇根、印第安纳等老工业州)。
这一次,近50年来最大的铝冶炼厂没有选在铁锈带,而是选在了俄克拉荷马州。这里属于传统的“阳光带/圣经带”。
原因很残酷——电价与营商环境。 正如数据中提到的,铝冶炼是“电老虎”,1吨铝要耗电14 MWh。
俄克拉荷马州拥有全美最廉价、最充足且多元的电力供应(包括大量的天然气发电和风能),同时该州作为内陆港口(Tulsa Port of Inola)物流网络发达、税收政策极其优惠。
美国重工业正在告别高成本、工会势力强大的旧铁锈带,向南方和中西部成本更低、能源更丰富的区域集中。
✅川普“硬核制造业回流”政策的落地标杆
这个项目能迅速推进,离不开当前美国政治环境的剧烈催化:
➡️关税倒逼:
美国政府此前推出了极其激进的保护主义政策,将铝进口关税直接翻倍到了50%(导致美国国内铝溢价飙升)。
原本美国85%的原铝依赖进口,关税一加,国内制造业(汽车、航空、军工)成本高企。
➡️资本用脚投票:
关税高墙逼得像阿联酋环球铝业(EGA)这样的全球巨头不得不妥协——既然卖不进去,那我就直接带着40亿美元巨资,去美国本土建厂。
这正是现任美国政府最希望看到的“用关税大棒强行把外资和工厂砸回美国本土”的典型案例。
✅剥离对外部供应链的依赖:把“命门”抓在手里
过去几十年,美国把高耗能、高污染、低利润的初级有色金属冶炼(如原铝、粗钢、稀土冶炼)全部外包给了中国、俄罗斯、中东等国家,自己只做高端研发。
➡️冷战思维回归:
但随着全球冲突加剧(正如我们前面聊到的乌克兰、中东变局),美国猛然发现自己的国防军工产业严重缺乏底层原材料支撑。
➡️军工与高科技的命脉:
生产F-35战斗机、爱国者导弹防空系统、高超音速武器,乃至特斯拉汽车、英伟达AI数据中心(数据中心建设需要大量铝合金母线槽和散热设备),全部都需要高纯度原铝。美国能源部(DOE)已经直接入股并拨款资助该项目,因为这2万吨高纯度铝将直接定向供应美国国防部。
美国宁可承受极高昂的用电成本,也要把这根“工业支柱”强行挪回国内。
✅工业化拉动效应:重回“蓝领中产”时代
1980年美国有33家冶炼厂,后来几乎倒闭光了,导致美国丧失了整整一代的冶炼高级技术工人。
这个新工厂预计将创造1000个高薪的永久性直接工作岗位,以及4000个建筑岗位。更重要的是,它会在俄克拉荷马州周边砸出一个“下游加工产业链集群”(直接在冶炼厂旁把液态铝加工成汽车、飞机的配件)。
这种强大的乘数效应,正在重新为美国社会注入大量的硬核蓝领中产阶级阶层。
📌总的来说,这不单单是一个工厂的建设,它是美国“全球化时代结束,堡垒经济时代开始”的缩影。
美国不再甘心只做一个玩弄金融、软件和AI的虚拟经济帝国,它正在利用自己强大的能源优势(页岩气和页岩油导致的廉价电力),强行把原本属于发展中国家的“重工业基础”一块一块地搬回自己的城堡内。
哪怕这个代价是每天要烧掉相当于一个大城市的巨额电力,他们也在所不惜。
顯示更多
邓聿文认为,在1978--1992年间,中共的“元老政治”达到巅峰。毛泽东去世以后的“元老政治”是怎么形成的?具体来说需要哪些条件?
请下载2026年第2期《中国民主季刊》专论文章:邓聿文《从“打天下”到“守成一代”:中共元老政治的结构性衰落及其当代意义》:
邓聿文谈毛泽东死后中共“元老政治”的形成条件:
首先,革命功绩是元老权威最直接、也是最不可替代的来源。作为党和国家的开国功臣,他们亲历了中共全部的“合法性建构史”——从井冈山根据地的开创,到长征的生死考验,再到抗日战争的战略转折,直至解放战争的全面胜利。这些经历不仅构成了个人政治资本,也塑造了中共官方叙事中的“英雄史观”。在这种叙事体系中,革命元勋不仅是政权的奠基者,更是制度的天然守护者。这种身份赋予他们在党内外一种类似“宪制监护人”的地位,即便没有任何职务,也被视为有资格对重大路线方针做出最终裁决。
其次,军队控制权是支撑元老政治的核心支柱。在中共的权力结构中,军队不仅是国防力量,更是政治权威的保障。邓小平、叶剑英、杨尚昆等人退居二线后,依然掌握或影响着中央军委的关键职位安排,对各大军区主官的任免有直接发言权。这种军事影响力不仅在权力斗争中发挥过决定性作用,也在日常政治中为元老的意见增加了分量。对现任领导人而言,忽视或公开挑战这些掌握军权背景的元老,无异于触碰政治安全底线。
再次,人事与组织网络构成了元老在制度层面延续影响的渠道。中共的干部管理体制长期强调“上级提拔、下级服从”,在这种体系中,元老在任时提拔的大批地方与部委干部,构成了他们退居二线后在组织系统中的“代理人”网络。这些干部既是元老政治意志的延伸,也是元老在政治协商中可以动员的现实力量。例如,1980 年代初期,陈云凭借其在财经系统中的权威,影响财政、银行等经济部门的政策走向,而邓小平则通过在中央军委与组织部的影响力,确保改革派在关键领域占据主导。
此外,话语权与历史叙事的塑造能力,使元老能够在意识形态层面对现任领导人形成压力。中共的政治合法性很大程度上依赖对历史的解释权,而第一代元老既是历史的亲历者,又掌握了对历史叙述的最终定调权。十一届三中全会通过的《关于建国以来党的若干历史问题的决议》,便是由邓小平、陈云等元老主导的历史评价工程,其内容不仅为改革开放确立了思想基础,也为他们在政治上继续掌握主动权提供了合法性依据。当某一政策路线与他们所确立的历史基调发生冲突时,他们便有理由以“维护历史结论”为名进行干预。
最后,政治文化中的长幼尊卑观念与“功勋政治”传统,为元老权威提供了软性但稳固的社会心理基础。在中共党内,资历不仅是政治资本,更是一种被广泛接受的正当性来源。第一代元老的资历差距与中生代领导人相比往往有十年至二十年以上,他们的经历和威望被视作党内不可轻易挑战的道德权威。这种文化心理不仅约束着现任领导人的行为,也影响着党内舆论的走向。
------
毛泽东去世后的“元老政治”是怎么兴起的?有哪些特点?对后来改革开放有什么影响?“元老政治”又是如何发展的?“元老政治”是怎么解体的?
请下载2026年第2期《中国民主季刊》专论文章:《从“打天下”到“守成一代”:中共元老政治的结构性衰落及其当代意义》:
------
感谢您支持《中国民主季刊》!
我们的季刊免费向公众开放,您的下载、传播和阅读就是对我们的最大支持和鼓励。感谢读者!
《中国民主季刊》往期下载:
欢迎订阅我刊的Substack专栏:
顯示更多
非常深度一篇文章,从GPU架构进化的第一性原理出发,重点解答市场长期担忧的问题:为什么每个GPU的HBM内存需求必然是指数级增长?为什么HBM需求不会像传统DRAM那样停滞或周期性崩盘?记录个要点当做阅读笔记
1. AI推理时代的核心KPI已彻底改变
CPU时代:最高KPI是“performance / FLOPS”(跑分越快越好)。
AI推理时代(尤其是agentic flow兴起后):最高KPI变成token经济学——单位成本/单位电力下的token吞吐量(throughput) + token生成速度。
Nvidia的“AI工厂”本质就是:最低成本输出最多token,同时尽量提高token速度。Pareto frontier曲线要不断向右上方移动。
2. Token吞吐量的第一性原理公式(核心结论)
Token throughput = HBM Size(容量) × HBM Bandwidth(带宽)Batch size(同时处理的请求数) 的瓶颈 = HBM Size
因为每个请求都自带hot KV cache,必须放在HBM里。随着batch增大,KV cache线性增长,HBM容量必须同步线性增长(否则就像接驳车车厢太小,要分多趟拉人)。
每个user的token生成速度 的瓶颈 = HBM Bandwidth
生成每一个token都要多次高频读取HBM里的权重和KV cache。带宽越高,decode速度越快(就像接驳车车门越宽,旅客上下车越快)。
完整类比:
吞吐量 = 接驳车车厢容量(HBM Size) × 车门宽度(HBM Bandwidth)。
只要想让token吞吐量每一代翻倍,HBM的Size × BW乘积就必须翻倍。这是硬件天花板,软件优化无法根本替代。
3. CPU时代 vs. AI时代的本质差异
CPU时代:DDR只是“辅助”,升级极慢(DDR3到DDR5花了15年)。
原因:CPU有大量cache、superscaler等隐藏延迟;日常workload对带宽/容量需求低;app size增长慢。
AI/GPU时代:计算范式彻底转向“memory-bound”(内存受限)。
推理即内存,KV cache + 上下文长度 + 多请求并发,把所有压力都压在HBM上。HBM已从“锦上添花”变成决定性因素。
4. 验证与现实对应
Nvidia从A100 → Rubin Ultra的token吞吐曲线,与HBM Size × BW曲线在对数轴上几乎完全重合(文章提到图二)。
即使利用率(utilization)很难达到100%,HBM仍是整个系统的天花板。老黄必须逼御三家(三星、海力士、美光)不断升级,否则GPU就卖不出去。
5. 软件优化无法改变硬件需求
软件再优化(如LPU把权重搬到SRAM),也只是从另一个维度改善Pareto曲线,硬件天花板仍由HBM决定。就像CPU时代软件再快,CPU厂也必须持续升级跑分一样
顯示更多
AI半导体终局推演2026(I)
当新token经济学范式从GPU算力转移到HBM
本文从从GPU架构进化路线本质出发,解释这个市场长久以来担心的问题:
每个GPU的HBM内存需求为什么一定会是指数增长,为什么HBM需求指数增长不会停滞?
并推导token经济学在当前架构下第一性原理:token吞吐 = HBM size X HBM BW带宽
同时讨论了,为什么GPU的天花板被HBM的两个发展维度所决定
HBM周期性这个话题争议一直很大,乐观派认为AI带来的需求比以前要大的多,但市场主流仍然认为前几次上升周期也有需求每年20%+增长,这次又有什么不一样呢?AI不影响HBM和传统DRAM一样有commodity属性,一旦在需求顶峰扩产遇上需求下行又会重蹈覆辙。
我们可以从算力芯片架构视角,从第一性原理出发,来拆解和推演一下这个问题:为什么这次真的不一样
-------------------------------
历史:CPU算力时代
很久以来,我们都处在CPU主导算力的时代,CPU的最高级KPI就是performance,跑的更快,所以每一代的CPU都用各种方法来提高跑分,最开始是频率上升,后来是架构演进superscaler等等
这个时候为什么DDR不需要很快的技术进步速度?比如DDR3到DDR5竟然经历了15年之久
因为这个时期的DDR的角色是纯粹的辅助,而且辅助功能极弱,以业界经验,DDR的速度即便是提高一倍,CPU的performance一般只能提高不到20%这个量级
为什么DDR带宽速度提高了用处不大?两个原因
1. CPU设计了各种架构去隐藏 DDR延迟,比如superscaler,加大发射宽度,用海量的ROB和register renaming来提高并行度隐藏延迟,一级缓存cache,二级缓存cache,削弱了DDR的带宽速度需求
2. CPU workload对DDR带宽要求并不高,大部分日常负载比如打开网页,DDR带宽是严重过剩的,甚至云端负载
也就是说,在CPU时代,DDR的带宽速度是不太有所谓的,DDR4和DDR5除了少数游戏就没啥差别,甚至JEDEC标准也进步缓慢。
另外,绝大部分app需要一直停留在DDR上的部分并不多,需要的时候从硬盘上调度到DDR即可,app的size增长没那么快,导致对DDR的容量需求也较为缓慢。
所以最近十年来,平均每台电脑上的DDR容量大概从7~8GB变成了23GB,十年只增长了3倍。
而这部分升级缓慢直接影响了营收,size容量计价是赚钱的主要方式,速度的提高只是技术升级,提高size的单价,这两个的升级需求都不大,需求主要是随着电脑/手机数量增长而增长
所以DRAM在带宽速度和容量这两个维度上,一直是都是芯片产业锦上添花性质的附属品,DDR升级带来的边际效用是很低的,跟CPU时代的最高KPI几乎没什么直接联系
--------------------------------------------
而到了genAI 大模型为主导的新时代,计算范式转移让最高级KPI起了根本变化
GPU发展到AI推理的时代,不再像CPU那样只看跑分,最高级的KPI不再是算力TOPS/FLOPS,而是token的成本,特别是单位成本/单位电力下的overall token throuput
其次是token吞吐速度,因为在agent时代,很多任务变成了串行,token吞吐速度成了用户体验的重要瓶颈。
这也是为什么老黄发明AI工厂概念的原因:最低成本的输出最多token,同时尽量提高token吞吐速度
AI训练时代,老黄的经济学是TCO(total cost ownership),买的GPU越多,省的越多
而老黄在推理时代的token经济学是:
AI推理的毛利润很可观,所以逻辑已经转换成:Nvidia GPU是这个世界上让token单价最便宜的GPU,买的GPU越多,赚的越多
最高的KPI变成了Pareto frontier曲线,在提高token 吞吐throughput和提高token速度两个维度上尽量优化
(见图一)
NVIDIA 的 token factory 代际进步,其实是在把整条 Pareto frontier 往右上推,这就是是AI推理这个时代最重要的KPI
----------------------------------
接下来是本文最重要的逻辑链,如何从token吞吐量指数型增长的本质出发,推导出天花板瓶颈在HBM size和HBM 带宽的指数型增长
单卡GPU推理单线程batch size = 1的时代,token吞吐只有一个维度,就是HBM的带宽速度,带宽速度越高,token吞吐越大
但进入NVL72的年代,推理不再是单卡GPU时代,而是72个GPU + 36个CPU整个系统级别的token工厂,把HBM带宽和算力用满,获得极致的token吞吐量
Token 吞吐throughput的增长,依赖两个东西:同时批处理的请求数 X 每个user请求的平均token速度
也就是batch size X per user token 速度
以Rubin NVL72为例,在平均token速度是100 token/s的情况下,同时批处理1920个请求,得到token吞吐量是19.2万token/s 一个Rubin NVL72大概是120KW(0.12MW)的功率,所以得到单位MW能处理1.6M token/s
(见图一)
所以,我们需要想方设法提高这两个参数:批处理数量batch size和per user token的平均速度,这两者相乘就是我们的最高KPI,也就是token的吞吐量
-------
第一个参数:batch size的增长,瓶颈在HBM size
批处理量里的每一个请求req,都会自带kv cache,这部分kv cache是需要存在HBM里的,大小大概在几个GB到数十GB不等 因为hot kv cache是随时需要高频高速读取,所以必须放在HBM里,比如一个大模型的层数是80层,那么每一个token的生成阶段,都需要读取80次HBM里的kv cache
随着批处理数量batch size的增长,会带来hot kv cache的线性增长
又因为这个批处理量的所有请求的hot kv cache,都要放在HBM上,这也就带来了HBM size必须要随着批处理量batch size线性增长
就像是机场接驳车,登机口尽量快的接旅客到飞机,HBM size小了,相当于接驳车size小了,就得多接一趟
结论是:批处理量的数量batch size,瓶颈依赖于HBM size的增长
---------
第二个参数:每个user请求的平均token速度,瓶颈在HBM带宽
大模型decode阶段的速度,瓶颈取决于HBM的带宽速度,因为每生成一个 token,都要把激活的权重和kv cache 读很多遍
LPU的出现,在batch不那么大的情况下,把激活权重这个部分搬到了SRAM上,但是每生成一个 token仍然要从HBM读很多次KV cache。HBM带宽越高,生成每一个token的速度也就越快,基本上是线性对应的
就像是机场接驳车,登机口尽量快的接旅客到飞机,hbm本身带宽速度就像是接驳车的车门有多宽,门越宽,旅客上接驳车越快
GPU的其他配置,都是在适配batch的增长以及要让token compute的速度配平HBM的增长,甚至会用多余的算力来获得部分的带宽(比如部分带宽压缩技术)
—-----
在那个接驳车的比喻例子里
接驳车的车厢大小 = HBM Size(容量): 决定了一次能装下多少名旅客(也就是能同时装下多少个请求的 KV Cache)。车厢越大,一次能拉载的旅客(Batch Size)就越多。如果车太小,想拉100个人就得分两趟,系统整体的吞吐量就上不去。
接驳车的车门宽度 = HBM Bandwidth(带宽): 决定了旅客上下车的速度。门越宽,大家呼啦啦一下全上去了(Decode/生成Token的速度极快)。如果门很窄,哪怕车厢巨大能装200人,大家也得排着队一个一个挤上去,全耗在上下车的时间里了。
旅客的吞吐量 = 接驳车车厢容量 x 接驳车旅客上车速度(车门宽度)
—---------------------------
至此,我们从逻辑上推演出了token经济学的硬件需求第一性原理:
Token throughput = HBM size X HBM Bandwidth
AI推理这个时代的最高KPI,实际上是高度依赖于HBM的两个维度的进步的
如果要维持token throuput每一代两倍的增长,实际上意味着,每一代的单GPU上,HBM size X HBM BW带宽之积要增长两倍!
这也是历史上第一次,HBM内存的size可以影响最高的KPI token throughput!
要验证这个理论,可以把Nvidia从A100到Rubin Ultra这几代的token 吞吐throughput,和HBM size X HBM BW 放在同一个图里比较
(见图二)
可以发现,这两个曲线的走势在对数轴上惊人的一致
HBM size x HBM带宽增长的甚至要比token吞吐量更快,毕竟HBM决定的是天花板,实际上这个天花板增长的利用率utilization是很难达到100%的,也就是说,HBM size x HBM 带宽就算增长1000倍,其他算力和架构的配合下,很难把这1000倍的天花板潜力全部榨干
这条曲线不是巧合,而是系统最优化的必然解
throughput = batch × Bandwidth,这就是token factory 经济学最绕不开的第一性原理
—--------
软件的影响呢?软件的优化会不会降低带宽的需求?降低HBM的需求?
这跟硬件是独立两个维度的,这好像在问,如果CPU上的软件优化了之后跑的更快,是不是CPU就十年不用发展了?反正软件跑的更快了嘛
这样的话,CPU厂还能赚得到钱吗?CPU想要存活下去,只有一条路可走,在标准benchmark,不考虑软件优化,每一代CPU必须要跑分更高,不然就卖不出去
GPU也是一样,软件优化如何,和自己的token吞吐量KPI每年都要大幅进步,是两回事
只要token的需求继续增长,对token throuput的追求就绝不会停止,那么对HBM size X HBM 带宽的追求也不会停止
如果HBM size和HBM 带宽发展慢了,老黄一定会亲自到御三家逼着他们技术升级,因为这就是老黄gpu的天花板,天花板要是钉死了不进步,老黄的GPU还能卖出去吗?
当然了,Nvidia需要绞尽脑汁去从异构计算的架构角度榨取HBM天花板之外的部分,比如LPU就是一个很好的尝试,把Pareto frontier从另一个角度改善了很多 (右半边高token速度的部分)
—--------------------------------------
HBM内存已然告别了那个随波逐流的旧时代,在这条由指数级需求铺就的单行道上,以一种近乎宿命的方式走到了产业史诗的主舞台中央
推理范式第一性原理演化到这一步,只要老黄还要卖GPU,HBM就必须翻倍,而且必须代代翻倍。这是supply side的内生压力,与AI需求无关,与宏观周期无关,与hyperscaler的心情也无关
剩下的问题,只有一个:
当需求被物理锁定为指数增长的时候,供给侧的三个玩家,会不会还像过去三十年那样,亲手把自己再拖回一次周期的泥潭?
顯示更多