lidang 立党（劝人卖房/学CS/买SP500/纳100/OpenAI/Anthrop第一人）(@lidangzzz ):半年来，我一直反复介绍的四个原则：原则1，AI时代的第一性原理：LLM一定会越来越聪明，benchmark越来越高，context window越来越大，reasoning越来越长，价格越来越便宜，inference速度越来越快，这是scaling law今天依然持续的具体方向，不用你质疑，这是你唯一的信仰和行业最大共识。原则2，管理学设计红利：从我提出“自动编程机”、行业提出vibe coding、SWE-Agent以来，从cursor到manus到metaGPT到claude code，人们逐渐把LLM Agent抽象成人，把软件管理、工程管理、管理学等等所有方法论直接套在multi agent workflow上面，严格按照人类管理学的方式去拆分、review、执行、反馈、循环，这一波很快红利也吃完了，因为 a. LLM Agent毕竟不是人，存在着memory有限、执行力有限、function calling工具有限等等局限；b. 人类用于管理学的各种方法，直接套在LLM Agent上有利有弊，红利迅速挖掘完，剩下的弊端大量存在，比如过度交流、七手八脚、随时停工等等。原则3，LLM Agent的职位和定位：绝大多数人，把claude code当做一个工具，最终的产品是用工具来完成的，最终的代码也是人与SWE Agent一步一步interactively迭代产生、迭代review、迭代部署的，而我反复告诉过所有人，也是我又一条首次提出的原创观点，multi agent未来越来越会变成本身的一个runtime，这个runtime就运行在production里面，产品和面向的对象消费的，不只是软件或者SaaS本身，而是这个runtime实时产生的内容，所以claude code/opencode/codex/openclaw这些agent，本身将会越来越多地被嵌入到产品本身，在产品关键逻辑和决策中发挥作用，而绝对不仅仅停留在开发层面，把产品仅仅局限在SWE Agent单向产出和部署的代码和服务上。原则4，也是我一直强调的，就是当人们试用了SWE Agent这种强大工具之后，人们还有哪些low hanging fruits可以寻找？SWE Agent目前最适合解决哪类问题？我反复讲过的一点是，对于一个设计复杂、环境复杂、场景复杂、用户复杂、体量复杂、范式复杂、一切开放、一切无解的超级复杂系统，这并不是SWE Agent最擅长的领域，相反这些场景需要人去和环境、客户、场景、性能一点点迭代才能打磨好的产品，比如微信的100种功能，Facebook的一大堆功能模块和十几年来迭代出来的极其复杂的infra，支付宝后面成千上万的基金和风控，这些都不是AI Agent能一次性解决的问题，相反这些场景和问题不仅高度开放，更高度依赖人的观察、人的设计、人的反馈、人的定义。 AI Agent最适合的场景，甚至是我原创提出goal driven（https://t.co/mJld9XcBjp）设计的最适合场景，在不考虑token使用量和时长的条件下（参照第一性原理，这些成本必然会越来越低），必然同时具有如下特点： a. 定义简单、干净、封闭（一道数学系、一个确定性最小系统、一个编译器、一种算法、一个lean证明、一个电路或者信号模拟、蛋白质模拟和预测、CAD设计与仿真、游戏关卡测试、行为经济学仿真，都是well-defined problems，都有非常明确且封闭的边界） b. 解决问题的搜索空间巨大（可能有100~10万种天马行空的解决方案，并且绝大多数都是错的） c. 容易验证，容易verify，验证的成本是设计成本的千分之一（比如编译器，设计可能需要几万行甚至几十万行，验证只需要2000个test case全面覆盖，或者一道数学题，解决需要100步，验证答案只需要带入或者lean编译这一步）当然，写一段简单的代码，定义一个封闭、完整、定义完全的编程问题，符合上面这些定义，但是设计一套巨大、复杂、开放、与现实世界深度绑定、高度耦合的系统，让这个系统复杂迭代、添加功能、沟通、review、工程管理、产品管理，这些问题都远远超出这个范畴，很明显是不符合这个要求的。人们未来探索这些multi agent产品和场景的最关键出路，在于继续挖掘这一类问题，而不是盲目把agent比作一个人，乱套各种管理学方法。原则5，这一点我先保密，之后我再讲。

lidang 立党（劝人卖房/学CS/买SP500/纳100/OpenAI/Anthrop第一人）@lidangzzz

2026.05.13 03:27

半年来，我一直反复介绍的四个原则：原则1，AI时代的第一性原理：LLM一定会越来越聪明，benchmark越来越高，context window越来越大，reasoning越来越长，价格越来越便宜，inference速度越来越快，这是scaling law今天依然持续的具体方向，不用你质疑，这是你唯一的信仰和行业最大共识。原则2，管理学设计红利：从我提出“自动编程机”、行业提出vibe coding、SWE-Agent以来，从cursor到manus到metaGPT到claude code，人们逐渐把LLM Agent抽象成人，把软件管理、工程管理、管理学等等所有方法论直接套在multi agent workflow上面，严格按照人类管理学的方式去拆分、review、执行、反馈、循环，这一波很快红利也吃完了，因为 a. LLM Agent毕竟不是人，存在着memory有限、执行力有限、function calling工具有限等等局限；b. 人类用于管理学的各种方法，直接套在LLM Agent上有利有弊，红利迅速挖掘完，剩下的弊端大量存在，比如过度交流、七手八脚、随时停工等等。原则3，LLM Agent的职位和定位：绝大多数人，把claude code当做一个工具，最终的产品是用工具来完成的，最终的代码也是人与SWE Agent一步一步interactively迭代产生、迭代review、迭代部署的，而我反复告诉过所有人，也是我又一条首次提出的原创观点，multi agent未来越来越会变成本身的一个runtime，这个runtime就运行在production里面，产品和面向的对象消费的，不只是软件或者SaaS本身，而是这个runtime实时产生的内容，所以claude code/opencode/codex/openclaw这些agent，本身将会越来越多地被嵌入到产品本身，在产品关键逻辑和决策中发挥作用，而绝对不仅仅停留在开发层面，把产品仅仅局限在SWE Agent单向产出和部署的代码和服务上。原则4，也是我一直强调的，就是当人们试用了SWE Agent这种强大工具之后，人们还有哪些low hanging fruits可以寻找？SWE Agent目前最适合解决哪类问题？我反复讲过的一点是，对于一个设计复杂、环境复杂、场景复杂、用户复杂、体量复杂、范式复杂、一切开放、一切无解的超级复杂系统，这并不是SWE Agent最擅长的领域，相反这些场景需要人去和环境、客户、场景、性能一点点迭代才能打磨好的产品，比如微信的100种功能，Facebook的一大堆功能模块和十几年来迭代出来的极其复杂的infra，支付宝后面成千上万的基金和风控，这些都不是AI Agent能一次性解决的问题，相反这些场景和问题不仅高度开放，更高度依赖人的观察、人的设计、人的反馈、人的定义。 AI Agent最适合的场景，甚至是我原创提出goal driven（ a. 定义简单、干净、封闭（一道数学系、一个确定性最小系统、一个编译器、一种算法、一个lean证明、一个电路或者信号模拟、蛋白质模拟和预测、CAD设计与仿真、游戏关卡测试、行为经济学仿真，都是well-defined problems，都有非常明确且封闭的边界） b. 解决问题的搜索空间巨大（可能有100~10万种天马行空的解决方案，并且绝大多数都是错的） c. 容易验证，容易verify，验证的成本是设计成本的千分之一（比如编译器，设计可能需要几万行甚至几十万行，验证只需要2000个test case全面覆盖，或者一道数学题，解决需要100步，验证答案只需要带入或者lean编译这一步）当然，写一段简单的代码，定义一个封闭、完整、定义完全的编程问题，符合上面这些定义，但是设计一套巨大、复杂、开放、与现实世界深度绑定、高度耦合的系统，让这个系统复杂迭代、添加功能、沟通、review、工程管理、产品管理，这些问题都远远超出这个范畴，很明显是不符合这个要求的。人们未来探索这些multi agent产品和场景的最关键出路，在于继续挖掘这一类问题，而不是盲目把agent比作一个人，乱套各种管理学方法。原则5，这一点我先保密，之后我再讲。