临睡前安排好任务让 codex 执行,明天起来看结果就行了
大多数人用 Claude 的方式是这样的:
一个对话框,什么都往里塞——写代码、查资料、改文案、回客服。
然后抱怨它"不够聪明"。
问题不是模型,是架构。
一个万能 Claude,不如七个各司其职的 Sub-Agent。
Garry Tan 的团队是这么拆的:
· 研究 Agent:扫描信息源,提炼关键信号
· 写作 Agent:只管内容生产,不管别的
· 代码 Agent:专注实现,有自己的工具链
· 营销 Agent:定位、文案、渠道策略
· 客服 Agent:处理用户反馈,分类上报
· 协调 Agent:任务分发,状态追踪
· 审查 Agent:只读权限,专门找问题
每个 Agent 只做一件事,做好一件事。
他还说了一句让我记住的话:
运行框架(harness)要瘦,技能要胖,数据要胖。
模型只是引擎。
引擎可以换,可以升级,可以被竞争对手复制。
但你围绕它建的系统——任务分工、工具链、积累的数据和经验——
这才是真正的竞争壁垒。
从"一个 Claude 干所有事"升级到"一套 Agent 系统各司其职",
显示更多
会用 Claude 聊天,不等于会做 LLM 工程。
这两件事之间的距离,比大多数人想象的远。
2026 年,"会用 AI"已经是基本门槛,不是护城河。
真正的护城河是:能设计、部署、监控一个生产级 AI 系统。
这需要的不只是会写 prompt。
从聊天到生产,你需要补上这几段距离:
提示工程 → 上下文工程
不是写更好的 prompt,是设计信息如何进入模型、以什么格式、在什么时机。
本地跑通 → 生产部署
延迟、并发、成本控制、降级策略——这些在 demo 里不存在,在生产里全是问题。
单次调用 → 可观测系统
你不知道模型在哪个请求上出了问题,就没办法系统性地改进它。
RAG 原型 → 检索工程
向量搜索只是起点。重排序、混合检索、上下文压缩,每一层都影响最终质量。
单 Agent → 多 Agent 协作
任务分解、状态管理、错误恢复——这是分布式系统问题,不是 prompt 问题。
"能设计 AI 系统"的人,永远比"会用 AI 工具"的人稀缺。
稀缺才有溢价。
显示更多
Codex 早已不仅是写代码的工具,其他日常办公过程中也能完美提效。
且看 Codex 的首位产品营销经理是怎么用的:
1. 每小时扫描 Slack/Gmail/Notion/Figma/Drive,把待处理信息分类:紧急回复、本周优先事项、利益相关者请求、值得知晓的信息。不再需要打开五个工具回想自己该关注什么。
2. 直接读 GitHub/Linear/Notion,知道改了什么、为什么改、哪里还没想清楚。
3. 把 Slack 话题串、会议记录、Notion 页面整理成协调文档,5 分钟出初稿。
显示更多
独立开发新找到的打法:
打法一:不发宣传贴,发"来撕我"帖
Reddit 上不写"我做了一个很棒的工具"。
写的是:"来找这个东西的毛病,我想知道它哪里烂。"
真实反馈涌进来,顺带带来了第一批用户。
打法二:价格阶梯制造紧迫感
前 100 个:$39
下 100 个:$49
之后:$79
不是促销,是定价策略。早买的人得到了真实的奖励,晚买的人看到了真实的涨价。
打法三:营收来自老用户
旧应用,最大的资产不是代码,是客户名单。
每次新品发布,老用户先知道。他们已经信任你,转化成本接近零。
打法四:前 72 小时亲自回复每一条反馈
不是客服,是创始人本人在回复。
用户感受到的不是"这个工具很好用",是"这个人在认真做事"。
显示更多
"AI 不会让你失业,只会让不会用 AI 的人失业"。
我觉得这句话是在撒谎。
事实是:初级岗位需求已经下降 30%+。这些人,有一部分就是失业了。
不是因为他们不努力,是因为他们做的那类工作,AI 真的做得更快更便宜。
但我也注意到另一件事:
有人用 AI 27 小时上线了一个产品,日活 20 万。
有人用 $20 的 Claude 订阅,五个月三平台月赚 15,400。
有人一个人,干翻了千万融资的团队。
同一波 AI 浪潮,有人失业,有人用它重新找到了构建的乐趣。
区别不是"会不会用 AI",是"你在用 AI 执行别人的需求,还是在用 AI 实现自己的判断"。
前者是工具人,会被更便宜的工具替代。
后者是决策者,AI 是他的杠杆。
显示更多
YC CEO 凌晨 2 点还在写代码,不是因为 deadline,是因为他重新找到了构建的乐趣。
Garry Tan 说了一句让人印象深刻的话:
"不要问哪个 AI 模型最好,这是个错误的问题。"
他给在做的事起了个名字叫元元提示(Meta-Meta-Prompting)。
普通用法:遇到问题 → 写 prompt → 解决 → 结束。
元元提示:遇到问题 → 解决 → 让 AI 把这次解法提取成可重用技能 → 下次自动调用。
区别在于:普通用法每次都从零开始,元元提示每次修复都在所有未来调用中复利积累。
具体怎么做:
任务跑完之后,加一句:
"把你刚才的解法提取成一个可重用的工作流,下次遇到类似问题直接调用。"
你的 AI 从一个执行者,变成了一个自我优化的系统。
显示更多
利用 AI 技术实现高效视频创作的自动化工作流,
以 Claude 为核心负责策划与脚本撰写,并利用 Python 脚本自动处理配音和图像生成等繁琐任务。
在后期制作方面,使用 Premiere Pro 的 AI 工具进行快速剪辑与音质增强,从而显著提升视频质量。
通过结合长视频与短视频的同步增长策略,创作者可以有效积累粉丝并扩大受众覆盖面。
通过 SEO 优化与联盟营销实现多渠道变现的具体方案,构建起一个完整的“内容工厂”。
显示更多
大模型 快思考 vs 慢思考:
快思考(直接回答):
激活已有模式,直接输出
适合简单、熟悉的任务
快,但容易犯「想当然」的错误
慢思考(Chain of Thought):
把推理过程显式化
每一步都是下一步的输入
慢,但能处理需要多步推理的复杂问题
实际应用:
简单任务:不需要慢思考,加了反而可能绕弯
数学/逻辑/多步推理:慢思考是必须的
复杂 Agent 任务:规划本身就是一种慢思考
显示更多
Claude 写代码有三种失败模式:
无声的错误假设
过度复杂化
横向损害不该碰的代码
Karpathy 4条 CLAUDE.md规则:
做任何修改前先解释你的推理
不要添加没有明确要求的功能
修改前先问,不要假设
完成后列出你改了什么、没改什么
补充的关键几条:
发现 bug 时先报告,不要自作主张修复
不要删除注释或测试,即使看起来多余
不确定时宁可少做,不要多做
一个文件,错误率从 41% 到 3% 以下。
你的 CLAUDE.md 有几条?
显示更多
AI Coding 由以下几层组合成一个可执行的软件工程工作流:
LLM(大脑)
项目上下文(记忆)
文件系统(操作对象)
Shell(执行环境)
版本控制(变更管理)
权限与沙箱(安全边界)
可观测性层(追踪与调试)
主流结构: 终端交互层 → Agent 编排层 → 模型适配层 → 上下文管理层 → 工具执行层
理解了这个结构,你才能知道在哪一层出了问题,知道怎么扩展它的能力,才能真正用好这些工具。
显示更多
Claude Code 每次新会话都「失忆」。
如果你经历过以下痛苦:
重新解释项目架构
再次说明技术选型原因
反复提醒已经踩过的坑
一定要了解下 AgentMemory 这个项目:
采用三路混合搜索 + RRF 融合,在 LongMemEval-S 基准上达到 95.2% 的 R
@5 召回率。
支持的代理: Claude Code、Cursor、Gemini CLI 等 15+ 工具
零外部依赖,直接安装即用。
显示更多
Harness Engineering 的基本逻辑:
Agent 每次犯错,不是换模型,而是工程化一个永久性解决方案,让它永远不再犯同样的错误。
这层脚手架包括:
CLAUDE.md / AGENTS.md — 行为约束文件
工具调用规范 — 什么时候用什么工具
验证回路 — 每个输出都有检查机制
错误处理 — 失败怎么恢复,不是靠重试
你的 Agent 有 Harness 吗?
显示更多
常规开发团队需要哪些子 Agent ?
研究员 Agent — 竞品分析、市场调研、信息收集,给出结构化报告
写作 Agent — 博客、邮件、文案,指定语气和受众即可
代码 Agent — 写功能、修 bug、做 code review,指定语言和约束
营销 Agent — 增长策略、投放文案、SEO 优化
客服 Agent — 处理常见问题、生成 FAQ、起草回复模板
数据 Agent — 分析报告、可视化、洞察提炼
项目管理 Agent — 任务拆解、进度追踪、风险识别
每个 Agent 本质上是一个 Markdown 文件:职位描述 + 行为规则 + 输出格格式。
关键认知转变: 不是"让 AI 帮我做这件事",而是"我把这个职位委托给这个 Agent"。
显示更多
Google Cloud Next 26 大会上发布的 长时运行 AI Agent 的五种核心设计模式
对于生产环境中 AI 无法处理跨周期复杂工作流的难题,真正的生产级 Agent 必须能够维持长达 七天的执行状态,而不是简单的无状态对话。
采用检查点与恢复、委托审批、分层记忆上下文、环境感知处理 以及 集群编排 等技术方案,以确保 Agent 在长时间运行中具备高可靠性和治理能力。
引入 Agent Runtime 及其配套工具,开发者可以将 AI 从基础的聊天机器人转变为能够自主处理数天任务的 数字化劳动力。
显示更多
Opus 4.7 + Claude Code 最佳实践
复杂任务用 high ,简单任务用 low ——不要全部默认 high ,成本差3-5倍。
自适应思考(Adaptive Thinking) 模型会根据任务复杂度自动调整思考深度。 你不需要在 prompt 里加"请仔细思考",加了反而可能干扰它。
规划/架构用 Opus 4.7( high effort)
日常实现用 Sonnet(成本低10倍)
验证/review 用 Opus 4.7( medium effort)
显示更多
Agentic Coding 是陷阱。它在悄悄积累两种债务。
认知债务: 你让 AI 写了一段代码,跑通了,合并了。 但你不知道它为什么这么写,也不知道它的边界在哪里。 下次出问题,你不知道从哪里找。 这段代码变成了你代码库里的黑盒。
技能萎缩: 你三个月没有从零写过一个完整的模块。 你开始依赖 AI 来做你以前能独立做的判断。 你的 debug 能力在退化,你的架构直觉在钝化。
这两种债务都是慢慢积累的,等你意识到的时候已经很难还清。
怎么对抗:
保持"理解再合并"的习惯,不理解的代码不合并
定期做不用 AI 的练习,保持肌肉记忆
AI 负责生成,你负责判断——不要把判断也外包出去
Agentic Coding 能让你快10倍,也能让你在某个关键时刻完全失控。
显示更多
Codex CLI 超过 30 种命令的高级用法
涵盖了会话生命周期管理、模型与风格切换、沙箱权限调整以及上下文压缩等实用技巧。
学习任务排队机制和不同清屏命令之间的本质区别,了解如何精准控制 AI 的行为。
探索代码审查、后台进程监控及 TUI 界面自定义等进阶功能。
通过对这些命令的深度拆解,形成一份极具参考价值的操作手册,以实现无需离开终端即可完成复杂任务的目标。
显示更多
你的项目结构,决定了 AI 能帮你多少。
用了 Monorepo + Harness Engineering 半年,最大的感受是:
AI 不是越聪明越好用,是看得越全越好用。
Monorepo 解决的是"看得见"的问题:
· 改一个接口,AI 能同时看到所有调用方
· 重构一个模块,AI 能追踪到所有依赖
· 不用反复解释"这个函数在哪"
Harness 解决的是"做得对"的问题:
· 规则写进 CLAUDE.md,AI 每次都遵守
· 验证回路兜底,错误在合并前被拦截
· 推理三明治(规划高推理→执行低推理→验证高推理),成本砍半
两者叠加的效果:
同一个模型,加了 Harness 之后 Terminal Bench 得分从 52.8% 涨到 66.5%。不换模型,只换系统。
人设计系统,AI 在系统内可靠执行。
这才是 2026 年 AI 工程的正确姿势——不是更好的提示词,是更好的结构
显示更多
判断什么时候该让 Claude Code 自己跑闭环,其实就一句: 这个 loop 我能不能不在里面。
输入输出明确、机器能验证、最坏情况 git reset 的活——挂机睡觉就好。
要看审美的、有不可逆副作用的、"瞄一眼对不对"比"自己改一遍"还累的——别碰。
我用 TinyPA 项目踩了几个坑:
显示更多