注册并分享邀请链接,可获得视频播放与邀请奖励。

rick awsb ($people, $people)
@rickawsb
瞎读书,乱解释,买啥亏啥,宏观小学生,政经评论外卖员,正在ai中慢慢迷失自我,crypto holder, defi farmer, not financial advice 非投资建议
加入 November 2017
12.3K 正在关注    145.8K 粉丝
Scaling Law正在被重新Scaling ---openai核心研究员最新论文《Learning Beyond Gradients》解读 过去几年,AI行业几乎默认更大的参数、更多的数据、更长的训练、更强的GPU,就是更强的模型,就是scaling law。 过去几个月,行业开始认为,更多的推理,更多的agent,就能完成更长时、更高价值的任务,就是更强的智能。 这构成了行业对scaling law的理解,而只要Scaling Law继续成立,模型就会不断逼近AGI。 最近的openai核心研究员翁家翌的一篇论文《Learning Beyond Gradients》,提出了一个全新的scaling维度:AI不一定只能通过梯度下降学习,也可以通过heuristic、policy、workflow、strategy、code generation不断修改自己的行为系统。 这是继agentic和harness之后,AI行业可能正在从“Scaling Model”,进入“Scaling System”的阶段一个最新的重要进展。 过去AI的能力飞轮,本质上是:更多数据→更大模型→更强能力→更多用户→更多数据。 但现在,论文要告诉我们的是,新的能力飞轮:更强模型→更强heuristic generation→更强runtime system→更强Agent能力→更多真实世界反馈→更强runtime evolution→反过来增强模型表现。 行业正在加速的从:智能 = weights。过度到:智能 = weights + runtime system。 LLM本质上是输入→Transformer→输出。 模型训练结束之后,能力基本冻结。学习主要发生在梯度下降、反向传播和weight update里。也就是说,learning = 修改参数。 LLM就像人类的大脑,参数就像脑细胞。但现实世界的大量复杂能力,其实并不完全来自参数。 就像人类文明真正强大的地方,也不仅仅是大脑本身。真正让文明爆炸的,是语言、文字、工具、数学、workflow、软件系统、组织结构、科学方法。这些本质上都是“外部heuristic system”。 《Learning Beyond Gradients》,的创新,在于它开始尝试把“学习”从参数空间里解放出来。过去是:reward → gradient → weights。现在开始变成:feedback → heuristic modification → runtime evolution。学习开始发生在program space,而不是parameter space。 heuristic,还有点像专家系统,但极大的增强了其能力:过去的专家系统,规则由人类写;现在,规则开始由LLM自动生成。这是在效率上的从量变到质化。 传统专家系统失败,并不完全因为“规则”方向错了,而是因为人类无法维护超大规模动态规则系统。过去写规则太慢、修改规则太贵、规则之间容易冲突、长尾case会爆炸、系统复杂度会失控,所以专家系统最终被深度学习取代。 但LLM的出现改变了这个约束。现在规则生成成本接近于0。模型不仅能生成规则、修改规则、删除规则、调试规则,还开始能自动生成workflow、tool graph、planner、memory strategy,甚至修复agent行为。 这意味着,AI开始能够修改自己的运行时系统。于是,越来越多能力开始从“模型本身”外溢到memory、planner、search、tool use、verifier、runtime orchestration这些系统结构里。 更大的模型 = 更强的AI,变成:更强的模型 × 更强的runtime system = 更强的AI。这会形成一个新的能力飞轮。 过去AI只有“模型scaling”。未来AI会开始出现:Model Scaling × System Scaling × Runtime Self-Improvement。 我们很可能正在从去年底的scaling law,迈入到现在的heuristic驱动的,结合agent和harness的scaling law的平方。 更重要的是,runtime system的增长现在其实才刚开始。今天很多Agent系统仍然非常早期。memory很弱、planner很弱、workflow persistence很弱、long-horizon task能力很弱,本质上还处于“DOS时代”。 但接下来,同一个基础模型,在不同Harness之下,实际能力可能相差几十倍。因为很多复杂任务的瓶颈,已经不是“模型会不会”,而是“系统能不能持续组织行为”。 这也是为什么,未来最重要的竞争,可能不再只是“谁的参数最多”,而是“谁最先形成:模型 + memory + tool ecosystem + heuristic runtime + self-improving harness”的闭环。 某种意义上,Transformer越来越像“认知内核”。真正的AGI,可能是围绕Transformer构建出来的runtime civilization、heuristic ecosystem、agent society、memory graph、self-improvement loop的组合体。 《Learning Beyond Gradients》最让我兴奋的地方,其实并不是“超越梯度”。而是它开始尝试:把Scaling Law本身,也变成一个可以被继续Scaling的系统。
显示更多
0
11
77
14
转发到社区