Eric Xu (e/Mettā) (@xleaps)

Eric Xu (e/Mettā)@xleaps

2026.04.14 02:31

一个中国人的名字里藏着他出生那一年的新闻联播。比如叫建国的，我们都能猜出他的年龄。为了做 2000 万有机虚拟中国人的数据集，我花了几天让模型学会了名字和出生时代的关联。记录如下：👇

轉發到社區

Eric Xu (e/Mettā) 已轉發

Cat Chen, @[email protected]@CatChen

2026.04.10 05:19

看了好几篇介绍 Claude Managed Agents 的中文长文，越看越不懂这是用来干什么的，最终还是要靠跟 Claude 对话来问明白，然后结合我参与 coding agent 项目的经验来理解。我觉得介绍任何新概念，必须把下面三件事情说明白： 1. 它尝试解决的问题是什么？ 2. 它如何解决了这个问题？ 3. 你如何用它来解决这类问题？如果你决定自己写一个 Lovable，你需要有一个云端的 agent 来响应用户在浏览器里面输入的 prompt，然后编辑存储在云端的那个网站，这是 Managed Agent 尝试解决的问题。如果你用 Claude Code 写代码，这事情跟你没半点关系。如果你写客户端的 agent loop，例如说 iOS 应用，这也跟你没关系。 Managed Agent 解决自建云端 agent 以下常见问题： 1. 需要自建 context 存储。用户今天创建一个 Lovable 项目搞两下，关掉浏览器后明天再打开，这个 context 怎么继续下去？你要找个地方存。用 Managed Agent 的话就它帮你存。 2. 需要不停地根据新模型的行为调整 harness。老的模型需要这样 prompt，需要在这时候 compact memory，新模型出来你可能要摸索着改。用 Managed Agent 的话就由 Anthropic 帮你维护 harness 更新，你根本接触不到 agent loop。 3. 需要智能启停云端 agent 实例。用户打开一个 Lovable 项目，启动对应 agent；用户关闭浏览器，过一段时间后停止实例；实例崩溃了但前端还连着，赶紧重启新实例。Managed Agents 可以帮你管理这些实例，你从前端发 prompt 过去就好。（实例仅在 agent loop 跑着的时候计费，停下来等下一个 prompt 就不再计费。）你自己写的这个 Lovable 可以通过 API 来调用 Managed Agents 创建 context、harness 和 sandbox（临时存储和编辑用户网站的环境），你不再需要手工解决上述问题。在创建 harness 时你可以提供 system prompt 和 tools，这样云端 agent 知道自己该干什么，懂得调用 tools 来跟 sandbox 打交道或者跟其它云端服务打交道。例如说你写的 Lovable 要支持生成图片，你可以提供一个调用 Nano Banana 的 tool 给 harness。最后我还是要吐槽那些贩卖信息赚取流量的中文内容，对于一个新热点如果你连顶上三个问题都说不清楚你还是别写了吧。

轉發到社區

Eric Xu (e/Mettā)@xleaps

2026.03.26 14:47

#BuildInPublic# 开源了一个 AI 模拟引擎 SGO (语义梯度优化引擎）在 AI 世界迭代产品或者功能，目前最最缺少的就是现实世界现实用户的反馈；这些反馈意见序列实际上构成了产品的演化路径。然而用户（真人）反馈周期较长，且不能覆盖所有的情景。当下，我们常常让 LLM "假装"某一类用户得到一个近似的反馈，但这种反馈都是一个一个的数据点，完全取决于事先规划好了的角色。 SGO 采用的思路是：用和人口普查对齐的合成数据来模拟真人用户。NVIDIA 开源了多个主权数据集，比如对于美国，Nemotron-Personas-USA 数据集里有一百万个基于美国人口普查数据生成的合成人物。不是那种 LLM 随便编的"有着三十年经验的工程师"，而是有完整背景的人——伊利诺伊郊区的建筑工人、德州农村的手工艺人、纽约的单亲妈妈等等。他们有各自的爱好、习惯、关注点。这些人的年龄、学历、职业、收入分布都跟真实人口一致。 SGO 的采样，模拟和梯度计算框架可以让你直接从这些人里拿到反馈，周期大约 30 秒，LLM API 花费大约 $0.10。使用方法也很简单：把要优化的东西贴进去，比如产品描述、融资 pitch、一则爆款文章等等（有一个用户甚至把他的约会 profile 放进去优化）。总之什么都行。 SGO 会很科学的帮你自动选择优化目标和目标受众。确定好以后，从这 100 万个有机数据人群中科学采样 (stratified sampling)、分类聚类、逐一询问反馈(contrafactual inquiry)、对照目标，逐一构建所谓的"语义梯度" （相当于目标对于各个变量的 Jacobian 矩阵），以及最终的汇总反馈和迭代方向。代码开源，目前部署在 HuggingFace Spaces 上可以直接试用。你可以把 SGO 作为 Skill 单独使用，也可以把它放在一个内循环里，和 auto-research 联合使用。 HF Space: 希望 SGO 和 auto-resesarch 结合，帮助大家优化那些跨越数字世界和现实世界的许多场景。 PS：现有的跑通的场景 * 简历优化 * 商业计划 * App UX 设计 * 广告牌设计 * LOGO * 网页的版式和颜色 * 约会档案 * 一个甜点屋的名字