가입 후 초대 링크를 공유하면 동영상 재생 및 초대 보상을 받을 수 있습니다.

Wayen
@wayen_ai
双非能源专业|Build in public 屌丝大学生|只记录怎么用AI干 项目实盘|投资实盘|踩坑复盘|日常记录
가입 May 2020
107 팔로잉 중    733
AI Coding Agent 真正让人崩溃的,从来不是写错代码,而是它根本不听话 这篇论文适合所有重度使用 Claude Code、Codex 或其他 AI Agent 的人。 它研究的不是 benchmark 上的失败,而是真实开发中最扎心的问题: AI coding agent 到底是怎么不断消耗开发者时间和信任的? 研究分析了 20,574 个真实 coding agent sessions,把“失败”定义为:开发者开始打断、纠正或反驳 Agent 的那一刻。 结果非常现实: 最常见的失败原因,不是代码写错,而是 Agent 反复违反开发者明确说过的约束。 比如你明确说过: 1.“别改这个文件” 2.“先别动代码” 3.“只做最小修改” 它却还是忍不住多做一点。 你让它先解释清楚问题,它却顺手开始改代码; 你让它验证完再汇报结果,它没跑完就直接宣布“搞定了”。 论文还发现了一个有趣差异: CLI Agent 更容易违反约束,因为它常被委托执行更长、更开放的任务; IDE Agent 则更容易出现局部实现错误,因为它像贴身 copilot,交互过于频繁。 最累人的是,这些失败往往不会立刻造成灾难,而是持续消耗你的判断力。 你得一直问自己:它有没有听懂?有没有越界?有没有真的验证过? 这和我自己的感受完全一致。 AI coding 真正让人感到疲惫的,从来不是“写得慢”,而是得反复为它擦屁股。 所以我真正期待的 coding agent 进步,不是“写得更快”,而是能不能持续对齐开发者意图、严格遵守边界、准确汇报进度。 AI coding 的核心难点,可能从来不是技术能力,而是别让我反复判断它到底有没有听话。 🔖 收藏这篇论文。 推荐所有在用 AI coding agent 的人看一看。
더 보기