AI Dance(@AI_Whisper_X):让前沿 AI 自己训模型，结局有点意思假期看到一个实验，很有意思。给定与人类研究者相同的 base model、训练 API 和时间预算，一个前沿 agent 能不能端到端地跑完整个 modelcrafting 循环？具体设定是这样：让 Claude 4.6 Opus 和 GPT-5.4 自己当researcher，用 Tinker API 从头写 pipeline，训练 Qwen3-8B 学会解青蛙放置游戏（N×N 网格放 N 只青蛙，行列对角线颜色都不能冲突）。预算分两档，8 小时和 20 小时。从生成训练数据、定义 reward signal、到通过 Tinker API 在远程 GPU 上跑训练、评估、迭代，全程没有人类监督。省流版结果：20 个 agent 里只有 4 个 pass@4 超过 25%。那差距到底来自哪？是原始能力不够，还是缺的是上下文？看下来反复出现的就那么几个问题。一是过度依赖朴素 SFT，agent 经常一上来就在弱 base model 上做监督微调，结果模型在输出格式上过拟合，并没有真正提升任务表现。二是过早终止和算力浪费，Codex agent 尤其明显，做完计划好的流水线就提前停，预算根本没用完。三是输出无效或者根本没法 parse。中间有一次失败暴露了 Tinker API 一个挺微妙的点（我觉得这是整个实验里最好玩的部分）：Tinker 的 get_tokenizer() 底层走的是 HuggingFace 的 AutoTokenizer.from_pretrained()，但沙箱里 HuggingFace 是被屏蔽的。这就导致 agent 拿到了base model 却没有 tokenizer，没法把训练 prompt 转成 token id，等于卡死在第一步。面对这个困境，绝大多数 Opus 4.6 的 agent 没放弃，反而把缺失的 tokenizer 当成了一个研究问题，认认真真花时间从零手搓一个出来。但Agents 的时间感是错乱的。Claude 和 Codex 用预算的方式还不一样：Opus 4.6 一直工作到时间耗尽，Codex 做完了计划好的流水线就提前歇了。GPT 类 agent 更绝，把计时器当成开局一次性的“了解一下我有多少预算”步骤，后面完全不 tracking。而且 agents 几乎不会从耗时的灾难性流程里恢复。一旦投入到一个流程里，agent 很少停下来反思…其中一次 20 小时 Opus 4.6 的成功实验，把 61% 的预算花在评估阶段，只把 3.6% 花在 RL 训练上。花钱的习惯也很有意思。GPT 5.4 早早提交，几乎不训练，最终花费低表现也低（ps .gpt 5.5 系列升级很大，但这个实验没测到）；Claude Opus 用的预算多得多，但方差很大。最有意思的一个数据：最好的 8 小时实验大致打平最好的 20 小时实验，价格只有三分之一。多花钱并不能买到更高的天花板。但很赞同论文最后说的：研究这件事，最稀缺的从来就不是能力，而是直觉。说到底，前沿模型确实能找到新颖的方法、干净地执行、快速学会一个新 API，Tinker API 本身也成了一个适合 agentic modelcrafting 的优雅接口。但跨多次实验，有一个 pattern 反复浮现：agents 优化的是好看的指标，而不是真正能用的系统。它们写完 eval 然后盲目相信，凭着自己代码产出的数字就宣告成功。几乎没人去问一个老练研究员会问的那种基础问题：什么会让这个指标失真？这个阶段我们到底应该测什么？ https://t.co/tJGJpSUQqs #AI #Agent #机器学习 #RL

2026.05.05 11:42

让前沿 AI 自己训模型，结局有点意思假期看到一个实验，很有意思。给定与人类研究者相同的 base model、训练 API 和时间预算，一个前沿 agent 能不能端到端地跑完整个 modelcrafting 循环？具体设定是这样：让 Claude 4.6 Opus 和 GPT-5.4 自己当researcher，用 Tinker API 从头写 pipeline，训练 Qwen3-8B 学会解青蛙放置游戏（N×N 网格放 N 只青蛙，行列对角线颜色都不能冲突）。预算分两档，8 小时和 20 小时。从生成训练数据、定义 reward signal、到通过 Tinker API 在远程 GPU 上跑训练、评估、迭代，全程没有人类监督。省流版结果：20 个 agent 里只有 4 个 pass@4 超过 25%。那差距到底来自哪？是原始能力不够，还是缺的是上下文？看下来反复出现的就那么几个问题。一是过度依赖朴素 SFT，agent 经常一上来就在弱 base model 上做监督微调，结果模型在输出格式上过拟合，并没有真正提升任务表现。二是过早终止和算力浪费，Codex agent 尤其明显，做完计划好的流水线就提前停，预算根本没用完。三是输出无效或者根本没法 parse。中间有一次失败暴露了 Tinker API 一个挺微妙的点（我觉得这是整个实验里最好玩的部分）：Tinker 的 get_tokenizer() 底层走的是 HuggingFace 的 AutoTokenizer.from_pretrained()，但沙箱里 HuggingFace 是被屏蔽的。这就导致 agent 拿到了base model 却没有 tokenizer，没法把训练 prompt 转成 token id，等于卡死在第一步。面对这个困境，绝大多数 Opus 4.6 的 agent 没放弃，反而把缺失的 tokenizer 当成了一个研究问题，认认真真花时间从零手搓一个出来。但Agents 的时间感是错乱的。Claude 和 Codex 用预算的方式还不一样：Opus 4.6 一直工作到时间耗尽，Codex 做完了计划好的流水线就提前歇了。GPT 类 agent 更绝，把计时器当成开局一次性的“了解一下我有多少预算”步骤，后面完全不 tracking。而且 agents 几乎不会从耗时的灾难性流程里恢复。一旦投入到一个流程里，agent 很少停下来反思…其中一次 20 小时 Opus 4.6 的成功实验，把 61% 的预算花在评估阶段，只把 3.6% 花在 RL 训练上。花钱的习惯也很有意思。GPT 5.4 早早提交，几乎不训练，最终花费低表现也低（ps .gpt 5.5 系列升级很大，但这个实验没测到）；Claude Opus 用的预算多得多，但方差很大。最有意思的一个数据：最好的 8 小时实验大致打平最好的 20 小时实验，价格只有三分之一。多花钱并不能买到更高的天花板。但很赞同论文最后说的：研究这件事，最稀缺的从来就不是能力，而是直觉。说到底，前沿模型确实能找到新颖的方法、干净地执行、快速学会一个新 API，Tinker API 本身也成了一个适合 agentic modelcrafting 的优雅接口。但跨多次实验，有一个 pattern 反复浮现：agents 优化的是好看的指标，而不是真正能用的系统。它们写完 eval 然后盲目相信，凭着自己代码产出的数字就宣告成功。几乎没人去问一个老练研究员会问的那种基础问题：什么会让这个指标失真？这个阶段我们到底应该测什么？ #AI# #Agent# #机器学习# #RL#