思维怪怪(@0xLogicrw ):OpenAI 后训练核心成员翁家翌（Jiayi Weng）以个人名义提出了一种名为「启发式学习」的强化学习新范式，并开源了全部实验代码。他用 Codex（GPT-5.4）反复玩 Atari 打砖块游戏，但 GPT-5.4 自始至终没有被重新训练过。真正在进步的，是 GPT-5.4 写出来的那套游戏策略代码。流程是这样的：GPT-5.4 先写一版打砖块的 Python 策略，跑一局，看录像，找出哪里打丢了球，然后自己改代码再跑。经过几轮迭代，策略代码从 387 分涨到了 864 满分。全程没有任何神经网络被训练，纯靠 AI 反复修改 if-else 规则、调落点预测、加死循环检测。最终那套代码包含球路预测器、卡球检测器、回归测试和实验日志，已经长成了一个完整的软件系统。这和传统强化学习的核心区别在于「学到的东西存在哪」。传统做法把知识压进神经网络参数里，人看不懂，学新任务还容易把旧的覆盖掉（即灾难性遗忘）。翁家翌的做法反过来：知识就是代码，人能读、能改、能加测试锁住，不会因为学新东西就丢了旧本领。除了打砖块满分，他还在 MuJoCo Ant（模拟机器蚂蚁走路）上跑出超 6000 分的深度强化学习级成绩，在 Atari57 全套 57 个游戏上逼近了 PPO 基准。但翁家翌也明确画了边界：纯代码搞不定复杂感知任务，比如用 Python 写 if-else 去认图片。他设想的终局是混合架构：底层用轻量神经网络负责视觉等感知，中层用启发式学习处理实时逻辑和安全规则，顶层由大模型审查日志、改代码，再周期性地用底层积累的高质量数据更新自身。过去手写规则之所以被淘汰，不是因为规则没用，而是人类维护不起。现在 AI 写代码够快够好，这条老路重新走得通了。

2026.05.08 10:46

OpenAI 后训练核心成员翁家翌（Jiayi Weng）以个人名义提出了一种名为「启发式学习」的强化学习新范式，并开源了全部实验代码。他用 Codex（GPT-5.4）反复玩 Atari 打砖块游戏，但 GPT-5.4 自始至终没有被重新训练过。真正在进步的，是 GPT-5.4 写出来的那套游戏策略代码。流程是这样的：GPT-5.4 先写一版打砖块的 Python 策略，跑一局，看录像，找出哪里打丢了球，然后自己改代码再跑。经过几轮迭代，策略代码从 387 分涨到了 864 满分。全程没有任何神经网络被训练，纯靠 AI 反复修改 if-else 规则、调落点预测、加死循环检测。最终那套代码包含球路预测器、卡球检测器、回归测试和实验日志，已经长成了一个完整的软件系统。这和传统强化学习的核心区别在于「学到的东西存在哪」。传统做法把知识压进神经网络参数里，人看不懂，学新任务还容易把旧的覆盖掉（即灾难性遗忘）。翁家翌的做法反过来：知识就是代码，人能读、能改、能加测试锁住，不会因为学新东西就丢了旧本领。除了打砖块满分，他还在 MuJoCo Ant（模拟机器蚂蚁走路）上跑出超 6000 分的深度强化学习级成绩，在 Atari57 全套 57 个游戏上逼近了 PPO 基准。但翁家翌也明确画了边界：纯代码搞不定复杂感知任务，比如用 Python 写 if-else 去认图片。他设想的终局是混合架构：底层用轻量神经网络负责视觉等感知，中层用启发式学习处理实时逻辑和安全规则，顶层由大模型审查日志、改代码，再周期性地用底层积累的高质量数据更新自身。过去手写规则之所以被淘汰，不是因为规则没用，而是人类维护不起。现在 AI 写代码够快够好，这条老路重新走得通了。

显示更多

Jiayi Weng@Trinkle23897

2026.05.08 03:49

Codex grew programmatic policies with no neural nets: max score on Breakout, and SOTA-level scores on MuJoCo. Maybe heuristics were not too weak. Maybe they were just too expensive to maintain. Maybe it's the next paradigm.

显示更多

592

转发到社区

热门用户