Wayen(@wayen_ai):AI Coding Agent 真正让人崩溃的，从来不是写错代码，而是它根本不听话这篇论文适合所有重度使用 Claude Code、Codex 或其他 AI Agent 的人。它研究的不是 benchmark 上的失败，而是真实开发中最扎心的问题： AI coding agent 到底是怎么不断消耗开发者时间和信任的？研究分析了 20,574 个真实 coding agent sessions，把“失败”定义为：开发者开始打断、纠正或反驳 Agent 的那一刻。结果非常现实：最常见的失败原因，不是代码写错，而是 Agent 反复违反开发者明确说过的约束。比如你明确说过： 1.“别改这个文件” 2.“先别动代码” 3.“只做最小修改” 它却还是忍不住多做一点。你让它先解释清楚问题，它却顺手开始改代码；你让它验证完再汇报结果，它没跑完就直接宣布“搞定了”。论文还发现了一个有趣差异： CLI Agent 更容易违反约束，因为它常被委托执行更长、更开放的任务； IDE Agent 则更容易出现局部实现错误，因为它像贴身 copilot，交互过于频繁。最累人的是，这些失败往往不会立刻造成灾难，而是持续消耗你的判断力。你得一直问自己：它有没有听懂？有没有越界？有没有真的验证过？这和我自己的感受完全一致。 AI coding 真正让人感到疲惫的，从来不是“写得慢”，而是得反复为它擦屁股。所以我真正期待的 coding agent 进步，不是“写得更快”，而是能不能持续对齐开发者意图、严格遵守边界、准确汇报进度。 AI coding 的核心难点，可能从来不是技术能力，而是别让我反复判断它到底有没有听话。 🔖 收藏这篇论文。推荐所有在用 AI coding agent 的人看一看。

2026.06.13 04:20

AI Coding Agent 真正让人崩溃的，从来不是写错代码，而是它根本不听话这篇论文适合所有重度使用 Claude Code、Codex 或其他 AI Agent 的人。它研究的不是 benchmark 上的失败，而是真实开发中最扎心的问题： AI coding agent 到底是怎么不断消耗开发者时间和信任的？研究分析了 20,574 个真实 coding agent sessions，把“失败”定义为：开发者开始打断、纠正或反驳 Agent 的那一刻。结果非常现实：最常见的失败原因，不是代码写错，而是 Agent 反复违反开发者明确说过的约束。比如你明确说过： 1.“别改这个文件” 2.“先别动代码” 3.“只做最小修改” 它却还是忍不住多做一点。你让它先解释清楚问题，它却顺手开始改代码；你让它验证完再汇报结果，它没跑完就直接宣布“搞定了”。论文还发现了一个有趣差异： CLI Agent 更容易违反约束，因为它常被委托执行更长、更开放的任务； IDE Agent 则更容易出现局部实现错误，因为它像贴身 copilot，交互过于频繁。最累人的是，这些失败往往不会立刻造成灾难，而是持续消耗你的判断力。你得一直问自己：它有没有听懂？有没有越界？有没有真的验证过？这和我自己的感受完全一致。 AI coding 真正让人感到疲惫的，从来不是“写得慢”，而是得反复为它擦屁股。所以我真正期待的 coding agent 进步，不是“写得更快”，而是能不能持续对齐开发者意图、严格遵守边界、准确汇报进度。 AI coding 的核心难点，可能从来不是技术能力，而是别让我反复判断它到底有没有听话。 🔖 收藏这篇论文。推荐所有在用 AI coding agent 的人看一看。

显示更多