Scaling Law正在被重新Scaling
---openai核心研究员最新论文《Learning Beyond Gradients》解读
过去几年,AI行业几乎默认更大的参数、更多的数据、更长的训练、更强的GPU,就是更强的模型,就是scaling law。
过去几个月,行业开始认为,更多的推理,更多的agent,就能完成更长时、更高价值的任务,就是更强的智能。
这构成了行业对scaling law的理解,而只要Scaling Law继续成立,模型就会不断逼近AGI。
最近的openai核心研究员翁家翌的一篇论文《Learning Beyond Gradients》,提出了一个全新的scaling维度:AI不一定只能通过梯度下降学习,也可以通过heuristic、policy、workflow、strategy、code generation不断修改自己的行为系统。
这是继agentic和harness之后,AI行业可能正在从“Scaling Model”,进入“Scaling System”的阶段一个最新的重要进展。
过去AI的能力飞轮,本质上是:更多数据→更大模型→更强能力→更多用户→更多数据。
但现在,论文要告诉我们的是,新的能力飞轮:更强模型→更强heuristic generation→更强runtime system→更强Agent能力→更多真实世界反馈→更强runtime evolution→反过来增强模型表现。
行业正在加速的从:智能 = weights。过度到:智能 = weights + runtime system。
LLM本质上是输入→Transformer→输出。
模型训练结束之后,能力基本冻结。学习主要发生在梯度下降、反向传播和weight update里。也就是说,learning = 修改参数。
LLM就像人类的大脑,参数就像脑细胞。但现实世界的大量复杂能力,其实并不完全来自参数。
就像人类文明真正强大的地方,也不仅仅是大脑本身。真正让文明爆炸的,是语言、文字、工具、数学、workflow、软件系统、组织结构、科学方法。这些本质上都是“外部heuristic system”。
《Learning Beyond Gradients》,的创新,在于它开始尝试把“学习”从参数空间里解放出来。过去是:reward → gradient → weights。现在开始变成:feedback → heuristic modification → runtime evolution。学习开始发生在program space,而不是parameter space。
heuristic,还有点像专家系统,但极大的增强了其能力:过去的专家系统,规则由人类写;现在,规则开始由LLM自动生成。这是在效率上的从量变到质化。
传统专家系统失败,并不完全因为“规则”方向错了,而是因为人类无法维护超大规模动态规则系统。过去写规则太慢、修改规则太贵、规则之间容易冲突、长尾case会爆炸、系统复杂度会失控,所以专家系统最终被深度学习取代。
但LLM的出现改变了这个约束。现在规则生成成本接近于0。模型不仅能生成规则、修改规则、删除规则、调试规则,还开始能自动生成workflow、tool graph、planner、memory strategy,甚至修复agent行为。
这意味着,AI开始能够修改自己的运行时系统。于是,越来越多能力开始从“模型本身”外溢到memory、planner、search、tool use、verifier、runtime orchestration这些系统结构里。
更大的模型 = 更强的AI,变成:更强的模型 × 更强的runtime system = 更强的AI。这会形成一个新的能力飞轮。
过去AI只有“模型scaling”。未来AI会开始出现:Model Scaling × System Scaling × Runtime Self-Improvement。
我们很可能正在从去年底的scaling law,迈入到现在的heuristic驱动的,结合agent和harness的scaling law的平方。
更重要的是,runtime system的增长现在其实才刚开始。今天很多Agent系统仍然非常早期。memory很弱、planner很弱、workflow persistence很弱、long-horizon task能力很弱,本质上还处于“DOS时代”。
但接下来,同一个基础模型,在不同Harness之下,实际能力可能相差几十倍。因为很多复杂任务的瓶颈,已经不是“模型会不会”,而是“系统能不能持续组织行为”。
这也是为什么,未来最重要的竞争,可能不再只是“谁的参数最多”,而是“谁最先形成:模型 + memory + tool ecosystem + heuristic runtime + self-improving harness”的闭环。
某种意义上,Transformer越来越像“认知内核”。真正的AGI,可能是围绕Transformer构建出来的runtime civilization、heuristic ecosystem、agent society、memory graph、self-improvement loop的组合体。
《Learning Beyond Gradients》最让我兴奋的地方,其实并不是“超越梯度”。而是它开始尝试:把Scaling Law本身,也变成一个可以被继续Scaling的系统。
顯示更多
τ Scaling Law, makes me τired
昨天有朋友问我:“韬定律,你怎么看?”
我一脸问号:“ 什么韬定律?我又错过了什么?”
朋友说:“ 就是华为的τ定律啊 ”
我更不解了:“ 华为的定律? 定律……”
后来大概看了一下,发现这东西也没那么玄。
摩尔定律讲的是,把晶体管继续做小。
韬定律讲的是,尺寸做不动了,就从信号传输、芯片互连、系统架构里继续抠效率。
更准确一点说,它想用“时间缩微”去接替一部分“几何缩微”。
过去大家卷的是计算单元本身:晶体管更小,数量更多,频率更高,单位成本更低。
现在的问题变了,很多时候,是数据搬不过来,信号走得太远,模块之间互相等待,性能都浪费在路上。
这里有个很朴素的逻辑:
空间距离就是时间;时间就是能耗;能耗就是热;热就是频率上限;频率上限就是性能天花板。
所以韬定律抓住了一个真问题。
但真问题,不等于真定律。
“law”这个词会制造很高的预期。摩尔定律之所以能被叫作定律,是因为它背后有几十年的产业验证,有清晰的成本曲线、性能曲线和制造节奏。
韬定律目前更像一个 principle、methodology、roadmap。它是一条技术路线,不是一条自然法则。
它的价值在于,把制程追赶问题,改写成了系统效率追赶问题。先进制程追不上,就尽量通过架构、封装、互连、软件、系统协同,把一部分差距补回来。
这条路当然值得走。而且后摩尔时代,所有玩家都会走这条路。
问题在于,补偿终归是补偿。
你优化的部分如果不是主要瓶颈,宣传再大,实际收益也会很小。如果瓶颈确实在数据传输、片间互连、系统调度上,它可能很有用。如果差距来自制程、功耗、良率、成本、材料和设备本身,它就不可能凭空抹平。
所以“等效先进制程”这类说法,最容易误导。
等效什么?等效密度?性能?功耗?成本?还是某个特定场景下的吞吐?
这些不说清楚,工程问题就会滑向宣传话术。
韬定律可以宣传,但不要神化。
韬定律不是摩尔定律的替代品,它更像摩尔定律失速后的补充路线。它把制程追赶问题,改写成系统效率追赶问题;这能改变竞争方式,但不能取消底层物理差距。
顯示更多
特朗普周三在Truth Social上发帖,敦促议员们批准该项目延期。该项目即《外国情报监视法》第702条款,将于本周五到期。特朗普在短期延期问题上面临民主党人的抵制。
顯示更多
除了X,其他的social media只要Po了顯示地點是菲律賓的照片,就有台男問我是不是菲律賓嫁到台灣來的?他媽的有病啊,台灣是宇宙中心啊?全世界女人都要嫁到台灣來…….
顯示更多
AI芯片的scale up,底层=物理的限制是reticle:
光刻机一次只能曝光一个固定大小的区域,上限大约在800mm²左右。这决定了目前单颗芯片的尺寸的硬天花板。
行业突破这个限制的难度非常大,接近物理极限,因为光刻的面积和精度往往不能两全(镜头等设备限制),所以只能绕开它。
早期是大GPU,但这样做成本和良率都会变得很差。后来逐渐转向另外两条路径:一种是把系统做大,用一块更大的“硅底板”interposer把多个芯片拼在一起;另一种是把芯片拆小,再通过高速连接重新组合。
interposer本质上不做计算,只负责连接。GPU、HBM这些芯片放在上面,通过更细、更密、更短的连线实现高带宽数据交换。AI算力之所以能上一个台阶,很大程度上不是因为算得更快,而是数据在不同芯片之间移动得更快。
但interposer本身也会超过reticle的尺寸,这时候就需要用到stitching。做法就像拼瓷砖:一块一块曝光,然后精确对齐,拼成一个整体。难点在于精度控制,边界一旦对不齐,连线就会出问题。
这种方式只适用于对精度不那么敏感的结构。像CPU、GPU这类逻辑芯片,对时序的要求极高,任何纳米级误差都可能影响性能,所以不能用stitching。interposer因为只是布线层,没有复杂逻辑,可以容忍这种拼接带来的误差。
围绕连接这件事,行业逐渐形成了cowos和emib两种不同的实现路径。一种是做一个统一的大平台,把所有芯片放在同一块interposer上,连接集中在这层完成,带宽能力很强,但成本也高。另一种是不做大底板,只在需要高速连接的地方嵌入一小块桥接结构,按需提供带宽,结构更灵活,制造压力也更小。
在AI训练场景下,模型规模大,HBM带宽成为关键,整个平台需要维持极高的数据吞吐,这类设计更依赖大面积interposer。
但推理场景的约束不一样,更关注成本、延迟和并发,带宽需求往往集中在局部,不需要整个平台都维持极致带宽。这时候,把芯片拆成多个模块,再用局部高速连接拼起来,会更合适。
这也是EMIB这类方案更容易在推理芯片和ASIC里出现的原因。它不需要一整块大interposer,而是在关键位置提供高带宽连接,可以把计算、缓存、IO等模块分开设计,再按需组合。这样的结构更容易控制成本,也更有利于根据不同业务场景做定制化调整。对云厂自研芯片来说,这种灵活性很重要。
当然,推理并不完全不需要高带宽。在一些大模型推理场景里,HBM依然重要,对应的封装方案也会更接近训练芯片。但在更广泛的推理需求中,成本和规模才是核心约束,这使得模块化和局部互连的价值变得更高。
站在26年一季度末看未来,AI算力的扩展路径其实已经很清晰了。不是把单个芯片做得越来越大,而是把计算拆开,再用更高带宽把它们连接起来。芯片本身的尺寸被reticle锁死了,系统的规模则由连接能力决定。
免责声明:本文非投资建议dyor
顯示更多