搜尋 SoCal 相關推文 — 推特瀏覽器

2026.05.17 19:09

Scaling Law正在被重新Scaling ---openai核心研究员最新论文《Learning Beyond Gradients》解读过去几年，AI行业几乎默认更大的参数、更多的数据、更长的训练、更强的GPU，就是更强的模型，就是scaling law。过去几个月，行业开始认为，更多的推理，更多的agent，就能完成更长时、更高价值的任务，就是更强的智能。这构成了行业对scaling law的理解，而只要Scaling Law继续成立，模型就会不断逼近AGI。最近的openai核心研究员翁家翌的一篇论文《Learning Beyond Gradients》，提出了一个全新的scaling维度：AI不一定只能通过梯度下降学习，也可以通过heuristic、policy、workflow、strategy、code generation不断修改自己的行为系统。这是继agentic和harness之后，AI行业可能正在从“Scaling Model”，进入“Scaling System”的阶段一个最新的重要进展。过去AI的能力飞轮，本质上是：更多数据→更大模型→更强能力→更多用户→更多数据。但现在，论文要告诉我们的是，新的能力飞轮：更强模型→更强heuristic generation→更强runtime system→更强Agent能力→更多真实世界反馈→更强runtime evolution→反过来增强模型表现。行业正在加速的从：智能 = weights。过度到：智能 = weights + runtime system。 LLM本质上是输入→Transformer→输出。模型训练结束之后，能力基本冻结。学习主要发生在梯度下降、反向传播和weight update里。也就是说，learning = 修改参数。 LLM就像人类的大脑，参数就像脑细胞。但现实世界的大量复杂能力，其实并不完全来自参数。就像人类文明真正强大的地方，也不仅仅是大脑本身。真正让文明爆炸的，是语言、文字、工具、数学、workflow、软件系统、组织结构、科学方法。这些本质上都是“外部heuristic system”。《Learning Beyond Gradients》，的创新，在于它开始尝试把“学习”从参数空间里解放出来。过去是：reward → gradient → weights。现在开始变成：feedback → heuristic modification → runtime evolution。学习开始发生在program space，而不是parameter space。 heuristic，还有点像专家系统，但极大的增强了其能力：过去的专家系统，规则由人类写；现在，规则开始由LLM自动生成。这是在效率上的从量变到质化。传统专家系统失败，并不完全因为“规则”方向错了，而是因为人类无法维护超大规模动态规则系统。过去写规则太慢、修改规则太贵、规则之间容易冲突、长尾case会爆炸、系统复杂度会失控，所以专家系统最终被深度学习取代。但LLM的出现改变了这个约束。现在规则生成成本接近于0。模型不仅能生成规则、修改规则、删除规则、调试规则，还开始能自动生成workflow、tool graph、planner、memory strategy，甚至修复agent行为。这意味着，AI开始能够修改自己的运行时系统。于是，越来越多能力开始从“模型本身”外溢到memory、planner、search、tool use、verifier、runtime orchestration这些系统结构里。更大的模型 = 更强的AI，变成：更强的模型 × 更强的runtime system = 更强的AI。这会形成一个新的能力飞轮。过去AI只有“模型scaling”。未来AI会开始出现：Model Scaling × System Scaling × Runtime Self-Improvement。我们很可能正在从去年底的scaling law，迈入到现在的heuristic驱动的，结合agent和harness的scaling law的平方。更重要的是，runtime system的增长现在其实才刚开始。今天很多Agent系统仍然非常早期。memory很弱、planner很弱、workflow persistence很弱、long-horizon task能力很弱，本质上还处于“DOS时代”。但接下来，同一个基础模型，在不同Harness之下，实际能力可能相差几十倍。因为很多复杂任务的瓶颈，已经不是“模型会不会”，而是“系统能不能持续组织行为”。这也是为什么，未来最重要的竞争，可能不再只是“谁的参数最多”，而是“谁最先形成：模型 + memory + tool ecosystem + heuristic runtime + self-improving harness”的闭环。某种意义上，Transformer越来越像“认知内核”。真正的AGI，可能是围绕Transformer构建出来的runtime civilization、heuristic ecosystem、agent society、memory graph、self-improvement loop的组合体。《Learning Beyond Gradients》最让我兴奋的地方，其实并不是“超越梯度”。而是它开始尝试：把Scaling Law本身，也变成一个可以被继续Scaling的系统。

0

12

83

15

轉發到社區

Robinson · 鲁棒逊@python_xxt

2026.05.26 17:19

τ Scaling Law, makes me τired 昨天有朋友问我：“韬定律，你怎么看？” 我一脸问号：“ 什么韬定律？我又错过了什么？” 朋友说：“ 就是华为的τ定律啊 ” 我更不解了：“ 华为的定律？定律……” 后来大概看了一下，发现这东西也没那么玄。摩尔定律讲的是，把晶体管继续做小。韬定律讲的是，尺寸做不动了，就从信号传输、芯片互连、系统架构里继续抠效率。更准确一点说，它想用“时间缩微”去接替一部分“几何缩微”。过去大家卷的是计算单元本身：晶体管更小，数量更多，频率更高，单位成本更低。现在的问题变了，很多时候，是数据搬不过来，信号走得太远，模块之间互相等待，性能都浪费在路上。这里有个很朴素的逻辑：空间距离就是时间；时间就是能耗；能耗就是热；热就是频率上限；频率上限就是性能天花板。所以韬定律抓住了一个真问题。但真问题，不等于真定律。 “law”这个词会制造很高的预期。摩尔定律之所以能被叫作定律，是因为它背后有几十年的产业验证，有清晰的成本曲线、性能曲线和制造节奏。韬定律目前更像一个 principle、methodology、roadmap。它是一条技术路线，不是一条自然法则。它的价值在于，把制程追赶问题，改写成了系统效率追赶问题。先进制程追不上，就尽量通过架构、封装、互连、软件、系统协同，把一部分差距补回来。这条路当然值得走。而且后摩尔时代，所有玩家都会走这条路。问题在于，补偿终归是补偿。你优化的部分如果不是主要瓶颈，宣传再大，实际收益也会很小。如果瓶颈确实在数据传输、片间互连、系统调度上，它可能很有用。如果差距来自制程、功耗、良率、成本、材料和设备本身，它就不可能凭空抹平。所以“等效先进制程”这类说法，最容易误导。等效什么？等效密度？性能？功耗？成本？还是某个特定场景下的吞吐？这些不说清楚，工程问题就会滑向宣传话术。韬定律可以宣传，但不要神化。韬定律不是摩尔定律的替代品，它更像摩尔定律失速后的补充路线。它把制程追赶问题，改写成系统效率追赶问题；这能改变竞争方式，但不能取消底层物理差距。

0

31

106

9

轉發到社區

华尔街日报中文网@ChineseWSJ

2026.06.11 05:30

特朗普周三在Truth Social上发帖，敦促议员们批准该项目延期。该项目即《外国情报监视法》第702条款，将于本周五到期。特朗普在短期延期问题上面临民主党人的抵制。

0

1

0

轉發到社區

Vintage@eternoveritas

2026.06.11 04:21

除了X，其他的social media只要Po了顯示地點是菲律賓的照片，就有台男問我是不是菲律賓嫁到台灣來的？他媽的有病啊，台灣是宇宙中心啊？全世界女人都要嫁到台灣來…….

0

8

40

0

轉發到社區

rick awsb ($people, $people)@rickawsb

2026.04.18 18:45

AI芯片的scale up，底层=物理的限制是reticle：光刻机一次只能曝光一个固定大小的区域，上限大约在800mm²左右。这决定了目前单颗芯片的尺寸的硬天花板。行业突破这个限制的难度非常大，接近物理极限，因为光刻的面积和精度往往不能两全（镜头等设备限制），所以只能绕开它。早期是大GPU，但这样做成本和良率都会变得很差。后来逐渐转向另外两条路径：一种是把系统做大，用一块更大的“硅底板”interposer把多个芯片拼在一起；另一种是把芯片拆小，再通过高速连接重新组合。 interposer本质上不做计算，只负责连接。GPU、HBM这些芯片放在上面，通过更细、更密、更短的连线实现高带宽数据交换。AI算力之所以能上一个台阶，很大程度上不是因为算得更快，而是数据在不同芯片之间移动得更快。但interposer本身也会超过reticle的尺寸，这时候就需要用到stitching。做法就像拼瓷砖：一块一块曝光，然后精确对齐，拼成一个整体。难点在于精度控制，边界一旦对不齐，连线就会出问题。这种方式只适用于对精度不那么敏感的结构。像CPU、GPU这类逻辑芯片，对时序的要求极高，任何纳米级误差都可能影响性能，所以不能用stitching。interposer因为只是布线层，没有复杂逻辑，可以容忍这种拼接带来的误差。围绕连接这件事，行业逐渐形成了cowos和emib两种不同的实现路径。一种是做一个统一的大平台，把所有芯片放在同一块interposer上，连接集中在这层完成，带宽能力很强，但成本也高。另一种是不做大底板，只在需要高速连接的地方嵌入一小块桥接结构，按需提供带宽，结构更灵活，制造压力也更小。在AI训练场景下，模型规模大，HBM带宽成为关键，整个平台需要维持极高的数据吞吐，这类设计更依赖大面积interposer。但推理场景的约束不一样，更关注成本、延迟和并发，带宽需求往往集中在局部，不需要整个平台都维持极致带宽。这时候，把芯片拆成多个模块，再用局部高速连接拼起来，会更合适。这也是EMIB这类方案更容易在推理芯片和ASIC里出现的原因。它不需要一整块大interposer，而是在关键位置提供高带宽连接，可以把计算、缓存、IO等模块分开设计，再按需组合。这样的结构更容易控制成本，也更有利于根据不同业务场景做定制化调整。对云厂自研芯片来说，这种灵活性很重要。当然，推理并不完全不需要高带宽。在一些大模型推理场景里，HBM依然重要，对应的封装方案也会更接近训练芯片。但在更广泛的推理需求中，成本和规模才是核心约束，这使得模块化和局部互连的价值变得更高。站在26年一季度末看未来，AI算力的扩展路径其实已经很清晰了。不是把单个芯片做得越来越大，而是把计算拆开，再用更高带宽把它们连接起来。芯片本身的尺寸被reticle锁死了，系统的规模则由连接能力决定。免责声明：本文非投资建议dyor

0

16

213

39

轉發到社區