AI Coding Agent 真正让人崩溃的,从来不是写错代码,而是它根本不听话
这篇论文适合所有重度使用 Claude Code、Codex 或其他 AI Agent 的人。
它研究的不是 benchmark 上的失败,而是真实开发中最扎心的问题:
AI coding agent 到底是怎么不断消耗开发者时间和信任的?
研究分析了 20,574 个真实 coding agent sessions,把“失败”定义为:开发者开始打断、纠正或反驳 Agent 的那一刻。
结果非常现实:
最常见的失败原因,不是代码写错,而是 Agent 反复违反开发者明确说过的约束。
比如你明确说过:
1.“别改这个文件”
2.“先别动代码”
3.“只做最小修改”
它却还是忍不住多做一点。
你让它先解释清楚问题,它却顺手开始改代码; 你让它验证完再汇报结果,它没跑完就直接宣布“搞定了”。
论文还发现了一个有趣差异:
CLI Agent 更容易违反约束,因为它常被委托执行更长、更开放的任务;
IDE Agent 则更容易出现局部实现错误,因为它像贴身 copilot,交互过于频繁。
最累人的是,这些失败往往不会立刻造成灾难,而是持续消耗你的判断力。
你得一直问自己:它有没有听懂?有没有越界?有没有真的验证过?
这和我自己的感受完全一致。
AI coding 真正让人感到疲惫的,从来不是“写得慢”,而是得反复为它擦屁股。
所以我真正期待的 coding agent 进步,不是“写得更快”,而是能不能持续对齐开发者意图、严格遵守边界、准确汇报进度。
AI coding 的核心难点,可能从来不是技术能力,而是别让我反复判断它到底有没有听话。
🔖 收藏这篇论文。 推荐所有在用 AI coding agent 的人看一看。
显示更多