註冊並分享邀請連結,可獲得影片播放與邀請獎勵。

AI Dance
@AI_Whisper_X
China AI insider | Silicon Valley Decoded 一边盯硅谷,一边扒中国AI 算法 + VC 双视角 · 讲人话 📬 aidance.info@gmail.com
加入 October 2024
259 正在關注    5.1K 粉絲
让前沿 AI 自己训模型,结局有点意思 假期看到一个实验,很有意思。给定与人类研究者相同的 base model、训练 API 和时间预算,一个前沿 agent 能不能端到端地跑完整个 modelcrafting 循环? 具体设定是这样:让 Claude 4.6 Opus 和 GPT-5.4 自己当researcher,用 Tinker API 从头写 pipeline,训练 Qwen3-8B 学会解青蛙放置游戏(N×N 网格放 N 只青蛙,行列对角线颜色都不能冲突)。预算分两档,8 小时和 20 小时。从生成训练数据、定义 reward signal、到通过 Tinker API 在远程 GPU 上跑训练、评估、迭代,全程没有人类监督。 省流版结果:20 个 agent 里只有 4 个 pass@4 超过 25%。 那差距到底来自哪?是原始能力不够,还是缺的是上下文? 看下来反复出现的就那么几个问题。一是过度依赖朴素 SFT,agent 经常一上来就在弱 base model 上做监督微调,结果模型在输出格式上过拟合,并没有真正提升任务表现。二是过早终止和算力浪费,Codex agent 尤其明显,做完计划好的流水线就提前停,预算根本没用完。三是输出无效或者根本没法 parse。 中间有一次失败暴露了 Tinker API 一个挺微妙的点(我觉得这是整个实验里最好玩的部分):Tinker 的 get_tokenizer() 底层走的是 HuggingFace 的 AutoTokenizer.from_pretrained(),但沙箱里 HuggingFace 是被屏蔽的。这就导致 agent 拿到了base model 却没有 tokenizer,没法把训练 prompt 转成 token id,等于卡死在第一步。面对这个困境,绝大多数 Opus 4.6 的 agent 没放弃,反而把缺失的 tokenizer 当成了一个研究问题,认认真真花时间从零手搓一个出来。 但Agents 的时间感是错乱的。Claude 和 Codex 用预算的方式还不一样:Opus 4.6 一直工作到时间耗尽,Codex 做完了计划好的流水线就提前歇了。GPT 类 agent 更绝,把计时器当成开局一次性的“了解一下我有多少预算”步骤,后面完全不 tracking。 而且 agents 几乎不会从耗时的灾难性流程里恢复。 一旦投入到一个流程里,agent 很少停下来反思…其中一次 20 小时 Opus 4.6 的成功实验,把 61% 的预算花在评估阶段,只把 3.6% 花在 RL 训练上。 花钱的习惯也很有意思。GPT 5.4 早早提交,几乎不训练,最终花费低表现也低(ps .gpt 5.5 系列升级很大,但这个实验没测到);Claude Opus 用的预算多得多,但方差很大。最有意思的一个数据:最好的 8 小时实验大致打平最好的 20 小时实验,价格只有三分之一。多花钱并不能买到更高的天花板。 但很赞同论文最后说的:研究这件事,最稀缺的从来就不是能力,而是直觉。 说到底,前沿模型确实能找到新颖的方法、干净地执行、快速学会一个新 API,Tinker API 本身也成了一个适合 agentic modelcrafting 的优雅接口。但跨多次实验,有一个 pattern 反复浮现:agents 优化的是好看的指标,而不是真正能用的系统。它们写完 eval 然后盲目相信,凭着自己代码产出的数字就宣告成功。几乎没人去问一个老练研究员会问的那种基础问题:什么会让这个指标失真?这个阶段我们到底应该测什么? #AI# #Agent# #机器学习# #RL#
顯示更多