rick awsb ($people, $people)(@rickawsb):Scaling Law正在被重新Scaling ---openai核心研究员最新论文《Learning Beyond Gradients》解读过去几年，AI行业几乎默认更大的参数、更多的数据、更长的训练、更强的GPU，就是更强的模型，就是scaling law。过去几个月，行业开始认为，更多的推理，更多的agent，就能完成更长时、更高价值的任务，就是更强的智能。这构成了行业对scaling law的理解，而只要Scaling Law继续成立，模型就会不断逼近AGI。最近的openai核心研究员翁家翌的一篇论文《Learning Beyond Gradients》，提出了一个全新的scaling维度：AI不一定只能通过梯度下降学习，也可以通过heuristic、policy、workflow、strategy、code generation不断修改自己的行为系统。这是继agentic和harness之后，AI行业可能正在从“Scaling Model”，进入“Scaling System”的阶段一个最新的重要进展。过去AI的能力飞轮，本质上是：更多数据→更大模型→更强能力→更多用户→更多数据。但现在，论文要告诉我们的是，新的能力飞轮：更强模型→更强heuristic generation→更强runtime system→更强Agent能力→更多真实世界反馈→更强runtime evolution→反过来增强模型表现。行业正在加速的从：智能 = weights。过度到：智能 = weights + runtime system。 LLM本质上是输入→Transformer→输出。模型训练结束之后，能力基本冻结。学习主要发生在梯度下降、反向传播和weight update里。也就是说，learning = 修改参数。 LLM就像人类的大脑，参数就像脑细胞。但现实世界的大量复杂能力，其实并不完全来自参数。就像人类文明真正强大的地方，也不仅仅是大脑本身。真正让文明爆炸的，是语言、文字、工具、数学、workflow、软件系统、组织结构、科学方法。这些本质上都是“外部heuristic system”。《Learning Beyond Gradients》，的创新，在于它开始尝试把“学习”从参数空间里解放出来。过去是：reward → gradient → weights。现在开始变成：feedback → heuristic modification → runtime evolution。学习开始发生在program space，而不是parameter space。 heuristic，还有点像专家系统，但极大的增强了其能力：过去的专家系统，规则由人类写；现在，规则开始由LLM自动生成。这是在效率上的从量变到质化。传统专家系统失败，并不完全因为“规则”方向错了，而是因为人类无法维护超大规模动态规则系统。过去写规则太慢、修改规则太贵、规则之间容易冲突、长尾case会爆炸、系统复杂度会失控，所以专家系统最终被深度学习取代。但LLM的出现改变了这个约束。现在规则生成成本接近于0。模型不仅能生成规则、修改规则、删除规则、调试规则，还开始能自动生成workflow、tool graph、planner、memory strategy，甚至修复agent行为。这意味着，AI开始能够修改自己的运行时系统。于是，越来越多能力开始从“模型本身”外溢到memory、planner、search、tool use、verifier、runtime orchestration这些系统结构里。更大的模型 = 更强的AI，变成：更强的模型 × 更强的runtime system = 更强的AI。这会形成一个新的能力飞轮。过去AI只有“模型scaling”。未来AI会开始出现：Model Scaling × System Scaling × Runtime Self-Improvement。我们很可能正在从去年底的scaling law，迈入到现在的heuristic驱动的，结合agent和harness的scaling law的平方。更重要的是，runtime system的增长现在其实才刚开始。今天很多Agent系统仍然非常早期。memory很弱、planner很弱、workflow persistence很弱、long-horizon task能力很弱，本质上还处于“DOS时代”。但接下来，同一个基础模型，在不同Harness之下，实际能力可能相差几十倍。因为很多复杂任务的瓶颈，已经不是“模型会不会”，而是“系统能不能持续组织行为”。这也是为什么，未来最重要的竞争，可能不再只是“谁的参数最多”，而是“谁最先形成：模型 + memory + tool ecosystem + heuristic runtime + self-improving harness”的闭环。某种意义上，Transformer越来越像“认知内核”。真正的AGI，可能是围绕Transformer构建出来的runtime civilization、heuristic ecosystem、agent society、memory graph、self-improvement loop的组合体。《Learning Beyond Gradients》最让我兴奋的地方，其实并不是“超越梯度”。而是它开始尝试：把Scaling Law本身，也变成一个可以被继续Scaling的系统。

2026.05.17 19:09

Scaling Law正在被重新Scaling ---openai核心研究员最新论文《Learning Beyond Gradients》解读过去几年，AI行业几乎默认更大的参数、更多的数据、更长的训练、更强的GPU，就是更强的模型，就是scaling law。过去几个月，行业开始认为，更多的推理，更多的agent，就能完成更长时、更高价值的任务，就是更强的智能。这构成了行业对scaling law的理解，而只要Scaling Law继续成立，模型就会不断逼近AGI。最近的openai核心研究员翁家翌的一篇论文《Learning Beyond Gradients》，提出了一个全新的scaling维度：AI不一定只能通过梯度下降学习，也可以通过heuristic、policy、workflow、strategy、code generation不断修改自己的行为系统。这是继agentic和harness之后，AI行业可能正在从“Scaling Model”，进入“Scaling System”的阶段一个最新的重要进展。过去AI的能力飞轮，本质上是：更多数据→更大模型→更强能力→更多用户→更多数据。但现在，论文要告诉我们的是，新的能力飞轮：更强模型→更强heuristic generation→更强runtime system→更强Agent能力→更多真实世界反馈→更强runtime evolution→反过来增强模型表现。行业正在加速的从：智能 = weights。过度到：智能 = weights + runtime system。 LLM本质上是输入→Transformer→输出。模型训练结束之后，能力基本冻结。学习主要发生在梯度下降、反向传播和weight update里。也就是说，learning = 修改参数。 LLM就像人类的大脑，参数就像脑细胞。但现实世界的大量复杂能力，其实并不完全来自参数。就像人类文明真正强大的地方，也不仅仅是大脑本身。真正让文明爆炸的，是语言、文字、工具、数学、workflow、软件系统、组织结构、科学方法。这些本质上都是“外部heuristic system”。《Learning Beyond Gradients》，的创新，在于它开始尝试把“学习”从参数空间里解放出来。过去是：reward → gradient → weights。现在开始变成：feedback → heuristic modification → runtime evolution。学习开始发生在program space，而不是parameter space。 heuristic，还有点像专家系统，但极大的增强了其能力：过去的专家系统，规则由人类写；现在，规则开始由LLM自动生成。这是在效率上的从量变到质化。传统专家系统失败，并不完全因为“规则”方向错了，而是因为人类无法维护超大规模动态规则系统。过去写规则太慢、修改规则太贵、规则之间容易冲突、长尾case会爆炸、系统复杂度会失控，所以专家系统最终被深度学习取代。但LLM的出现改变了这个约束。现在规则生成成本接近于0。模型不仅能生成规则、修改规则、删除规则、调试规则，还开始能自动生成workflow、tool graph、planner、memory strategy，甚至修复agent行为。这意味着，AI开始能够修改自己的运行时系统。于是，越来越多能力开始从“模型本身”外溢到memory、planner、search、tool use、verifier、runtime orchestration这些系统结构里。更大的模型 = 更强的AI，变成：更强的模型 × 更强的runtime system = 更强的AI。这会形成一个新的能力飞轮。过去AI只有“模型scaling”。未来AI会开始出现：Model Scaling × System Scaling × Runtime Self-Improvement。我们很可能正在从去年底的scaling law，迈入到现在的heuristic驱动的，结合agent和harness的scaling law的平方。更重要的是，runtime system的增长现在其实才刚开始。今天很多Agent系统仍然非常早期。memory很弱、planner很弱、workflow persistence很弱、long-horizon task能力很弱，本质上还处于“DOS时代”。但接下来，同一个基础模型，在不同Harness之下，实际能力可能相差几十倍。因为很多复杂任务的瓶颈，已经不是“模型会不会”，而是“系统能不能持续组织行为”。这也是为什么，未来最重要的竞争，可能不再只是“谁的参数最多”，而是“谁最先形成：模型 + memory + tool ecosystem + heuristic runtime + self-improving harness”的闭环。某种意义上，Transformer越来越像“认知内核”。真正的AGI，可能是围绕Transformer构建出来的runtime civilization、heuristic ecosystem、agent society、memory graph、self-improvement loop的组合体。《Learning Beyond Gradients》最让我兴奋的地方，其实并不是“超越梯度”。而是它开始尝试：把Scaling Law本身，也变成一个可以被继续Scaling的系统。

显示更多