Harness Engineering 的基本逻辑:
Agent 每次犯错,不是换模型,而是工程化一个永久性解决方案,让它永远不再犯同样的错误。
这层脚手架包括:
CLAUDE.md / AGENTS.md — 行为约束文件
工具调用规范 — 什么时候用什么工具
验证回路 — 每个输出都有检查机制
错误处理 — 失败怎么恢复,不是靠重试
你的 Agent 有 Harness 吗?
显示更多
Harness 是 macOS 上的原生开发工具,用 AI 代理在 iOS 模拟器、macOS 应用或 Web 应用上跑用户测试……不是脚本化 UI 测试,是模拟真实用户行为。
显示更多
harness,我最喜欢的翻译是
约束
所以harness engjneer
应该叫做
约束工程
如果 harness 工程可以让软件自动生长,工作本身为什么不能?换句话说,工作本身难道不是一个个神经网络在受监督学习下的自然发生吗
地表最强的harness engineering(执行框架)学习网站,没有之一
现在很多云端 harness 产品 UI 设计得像一台云端电脑的形态,比如 perplexity computer 等,但是在一台真实的电脑上打开浏览器,再打开网站看到一台电脑,不会觉得有点奇怪吗?大家觉得未来真正的 agent OS 的界面会长成啥样?
显示更多
关于 AI Coding 和 Harness 最近写的一些内容:
让 AI 学会并发干活儿
让 AI 能够复用过去的经验,把代码写的更好
如何让 AI 进入疯狂工作模式
让 AI 输出效果提升五倍
AI 解放双手,如何把工作托管给浏览器
AI 时代的软件开发速度
Claude Code 的编程哲学
Vibe coding 的宪法
Claude Code 的记忆设计
Harness,让 agent 跑长程任务
为什么你的 agent 跑不了长程任务?
构建有效的工作上下文,让 AI 参与决策
AI 时代的软件形态
Harness 也是过渡产物
组合不同 LLM 完成任务,会成为必备技能之一。
文档编程,让 AI 一直跑下去。
让 AI 减少犯错
Codex 长程任务的运行机制
Claude Code/Codex 的记忆设计哲学
大多数人不知道如何给AI定目标
显示更多
围绕前沿 SOTA 模型的第一层 harness 产品已经做的非常好了,以至于我现在做新产品的时候已经很少使用 plan 模式,换句话说,现在 codex/cc 可以自动的理解意图来执行目标。现在刚到 2026 年 5 月,短短四个月过去,harness 的进展惊人,但在云端 harness 仍有关键的多处问题未得到解决。
显示更多
🎉家人们,新课更新了:《Harness Engineering 入门实战课:如何让 AI 稳定开发项目?》。
AI 编程正在从“写好 Prompt”进入“让 Agent 稳定干活”的阶段,真正重要的不只是怎么提问,而是如何给 Agent 准备好产品说明、架构边界、工作规则和交接记录。
这节课会带大家用 4 个基础 Markdown 文件搭建一个最小 Harness,并让开发 Agent 基于这些文档,一次性完成一个本地项目看板应用,支持项目卡片拖拽、IndexedDB 本地保存,以及通过右侧 Agent 面板用自然语言新增、删除和修改项目。
课程地址:
显示更多
这两天验证了下,同一套效果还不错的 Harness 工程,强模型就是更强,较弱的模型就不得不在 Harness 工程上针对性地多下功夫。