Pragmatic Engineer 的调查
95% 的高级工程师每周都在用 AI 工具
75% 的工作有一半以上是 AI 辅助完成的
不仅仅是新手在用 AI 凑数
最资深的人用得更狠
Harness Engineering 的基本逻辑:
Agent 每次犯错,不是换模型,而是工程化一个永久性解决方案,让它永远不再犯同样的错误。
这层脚手架包括:
CLAUDE.md / AGENTS.md — 行为约束文件
工具调用规范 — 什么时候用什么工具
验证回路 — 每个输出都有检查机制
错误处理 — 失败怎么恢复,不是靠重试
你的 Agent 有 Harness 吗?
顯示更多
🎉Harness Engineering 入门视频! 2026 最值钱的 AI 编程能力。
完整版 50 分钟实战课程见我的 AI 编程课程主页 👇
地表最强的harness engineering(执行框架)学习网站,没有之一
美国加州旧金山,Engine机器人和宇树机器人之间的首次对决。
美帝的机器人有点弱得离谱啊
鳥哥 Eugene 再次喊多 - 未來一週將是正式啟動行情之時 💥
💡觀察整體成交量與未平倉合約(OI)水位,目前大多數幣種只需要相對少量的邊際買盤就能推動行情,這代表市場整體仍處於低配狀態
💡現在我們需要的,是 BTC 乾淨俐落地突破 8 萬美元,並帶動核心山寨幣(ETH / SOL / HYPE)同步啟動新的上升趨勢
我的看法是
1️⃣ 其實 $HYPE 又偷偷要破前高了... 穩到不行,但是假日明顯持倉變化增速快的幣種變少了,數據慘的可憐
2️⃣ 當前 BTC 現貨 ETF 流入速度趨緩,近兩日都是流出但金額不大,持續關注每天數據,有大額流出現象需注意風險
3️⃣ 下週川普訪華,市場預計又要有波動,鑑於 crypto 仍然會跟美股,到時候看美股如何走了
接下來值得關注的幾個時間點
🔴 5/13 週二 — CPI
🔴 5/15 週四 FOMC
🔴 美聯儲主席鮑先生 5 月 15 日屆滿,再來就是 Warsh 時代了
顯示更多
Cursor 的 Agents Window 是针对 agentic engineering 场景的 agent-first Zen mode 交互界面。
和 Claude Code / Codex / Conductor 这种把 agents 当一等公民对待的 desktop GUI 对齐。
搞笑的是目前这个界面的配色和 Cursor IDE 用的无法统一,看起来非常难受。
顯示更多
Anthropic 工程师 Barry Zhang 在 AI Engineer 工作坊上的一个分享 “如何构建有效的 Agent”,其中印象最深的一个观点:Don't build agents for everything,反过来理解就是别做什么都能干的 Agent,那是我们大模型要干的事情😆 构建有效 Agent 的三大要点:
1. 明智选择应用场景,并非所有任务都需要 Agent;
2. 找到合适的用例后,尽可能长时间地保持系统简单;
3. 在迭代过程中,尝试从 Agent 的视角思考,理解其局限并提供帮助;
Barry 主要负责 Agentic System,演讲内容基于他和 Eric 合著的一篇博文,下面详细总结他们的核心观点,以及对 Agent 系统的演进和未来的思考。
Agent 系统的演进
- 简单功能: 起初是简单的任务,如摘要、分类、提取,这些在几年前看似神奇,现在已成为基础;
- 工作流(Workflows): 随着模型和产品成熟,开始编排多个模型调用,形成预定义的控制流,以牺牲成本和延迟换取更好性能。这被认为是 Agent 系统的前身;
- Agent: 当前阶段,模型能力更强,领域特定的 Agent 开始出现。与工作流不同,Agent 可以根据环境反馈自主决定行动路径,几乎独立运作;
- 未来(猜测): 可能是更通用的单一 Agent,或多 Agent 协作。趋势是赋予系统更多自主权,使其更强大有用,但也伴随着更高的成本、延迟和错误后果。
核心观点一
并非所有场景都适合构建 Agent (Don't build agents for everything)
- Agent 主要用于扩展复杂且有价值的任务,它们成本高、延迟高,不应作为所有用例的直接升级。对于可以清晰映射决策树的任务,显式构建工作流(Workflow)更具成本效益和可控性。
- 何时构建 Agent 的检查清单:
1. 任务复杂度 : Agent 擅长处理模糊的问题空间。如果决策路径清晰,应优先选择工作流;
2. 任务价值: Agent 的探索性行为会消耗大量 token,任务的价值必须能证明其成本。对于预算有限(如每任务 10 美分)或高容量(如客服)场景,工作流可能更合适;
3. 关键能力的可行性 : 需确保 Agent 在关键环节(如编码 Agent 的编写、调试、错误恢复能力)不存在严重瓶颈,否则会显著增加成本和延迟。如有瓶颈,应简化任务范围;
4. 错误成本与发现难度: 如果错误代价高昂且难以发现,就很难信任 Agent 自主行动。可以通过限制范围(如只读权限、增加人工干预)来缓解,但这也会限制其扩展性;
- 编码(Coding)是一个很好的 Agent 用例,因为它任务复杂(从设计文档到 PR)、价值高、现有模型(如 Claude)在许多环节表现良好,且结果易于验证,例如单元测试、CI。
核心观点二
保持简单 (Keep it simple)
- Agent 的核心结构: 模型(Model)+ 工具(Tools)+ 循环(Loop)在一个环境(Environment)中运作。
- 三个关键组成部分:
1. 环境:Agent 操作所在的系统;
2. 工具集: Agent 采取行动和获取反馈的接口;
3. 系统提示: 定义 Agent 的目标、约束和理想行为;
- 迭代方法: 优先构建和迭代这三个基本组件,能获得最高的投资回报率。避免一开始就过度复杂化,这会扼杀迭代速度。优化(如缓存轨迹、并行化工具调用、改进用户界面以增强信任)应在基本行为确定后再进行。
- 一致性: 尽管不同 Agent 应用(编码、搜索、计算机使用)在产品层面、范围和能力上看起来不同,但它们共享几乎相同的简单后端架构。
核心观点三
像 Agent 一样思考 (Think like your agents)
- 问题: 开发者常从自身角度出发,难以理解 Agent 为何会犯看似反常的错误;
- 解决方法: 将自己置于 Agent 的“上下文窗口”中。Agent 在每一步的决策都基于有限的上下文信息(如 10k-20k token);
- 换位思考练习: 尝试从 Agent 的视角完成任务,体验其局限性(例如,只能看到静态截图,在推理和工具执行期间如同“闭眼”操作)。这有助于发现 Agent 真正需要哪些信息(如屏幕分辨率、推荐操作、限制条件)以避免不必要的探索;
- 利用模型自身: 可以直接询问模型(如 Claude):指令是否模糊?是否理解工具描述?为什么做出某个决策?如何帮助它做出更好的决策?这有助于弥合开发者与 Agent 之间的理解差距。
个人思考与未来展望
- 预算感知 Agent (Budget-aware Agents): 需要更好地控制 Agent 的成本和延迟,定义和强制执行时间、金钱、token 预算,以便在生产环境中更广泛地部署。
- 自进化工具 (Self-evolving Tools): Agent 或许能设计和改进自己的工具(元工具),使其更具通用性,能适应不同用例的需求。
- 多 Agent 协作 (Multi-agent Collaboration): 预计今年年底将在生产中看到更多多 Agent 系统。其优势包括并行化、关注点分离、保护主 Agent 上下文窗口等。关键挑战在于 Agent 间的通信方式,如何实现异步通信,超越当前的用户-助手轮流模式。
顯示更多
GitHub早上跟我推的这个项目
ai-engineering-from-scratch
400多节课,看着还挺有意思的,但是我觉得,如果为了找AI Agent学这些课,感觉太枯燥了
还不如把一些Agent的开源项目源代码给AI,然后加一些自己的想法,这样可能会更有实战性吧🤣
顯示更多
🎉家人们,新课更新了:《Harness Engineering 入门实战课:如何让 AI 稳定开发项目?》。
AI 编程正在从“写好 Prompt”进入“让 Agent 稳定干活”的阶段,真正重要的不只是怎么提问,而是如何给 Agent 准备好产品说明、架构边界、工作规则和交接记录。
这节课会带大家用 4 个基础 Markdown 文件搭建一个最小 Harness,并让开发 Agent 基于这些文档,一次性完成一个本地项目看板应用,支持项目卡片拖拽、IndexedDB 本地保存,以及通过右侧 Agent 面板用自然语言新增、删除和修改项目。
课程地址:
顯示更多