注册并分享邀请链接,可获得视频播放与邀请奖励。

宝玉
@dotey
Prompt Engineer, dedicated to learning and disseminating knowledge about AI, software engineering, and engineering management.
1.6K 正在关注    218K 粉丝
吴恩达老师观点:所谓“AI 会引发大规模失业”,纯粹是一种不负责任的恐慌故事。 软件工程师都快被 AI 工具折腾死了吧?可现实却是工程师招聘市场依旧火爆,美国失业率稳稳地停在 4.3%,没半点要崩的样子。每一波技术浪潮,最终创造出来的新岗位远比被干掉的多得多,这次也不会例外。 “AI 抢饭碗”这个故事为啥这么流行背后的三股推动力: 一是前沿 AI 公司特愿意把自己技术吹得越神越好。一项技术能干掉一个年薪十万的员工,那卖你一万美元的订阅费是不是就显得便宜了? 二是企业自己也爱把裁员说成是“AI 提效”,毕竟比承认“疫情期间招人招过头了”听着体面多了。 三是媒体天然就偏爱恐慌故事。“AI 会让人类灭绝”,这标题点击率总比“AI 会改变你的工作内容”高出几个数量级。 他举了些历史上类似的群体恐慌故事:比如公众对核电站安全的过度焦虑,直接导致核电发展停滞几十年;60年代“人口炸弹”的恐惧,让很多国家祭出了严厉的人口控制政策;再比如对脂肪的恐惧,导致政府推广了几十年的高糖低脂饮食。这些听起来有点荒唐,但当年每一个故事都非常流行,并实实在在影响了无数人的生活。 AI 不会带来失业末日(jobpocalypse),而会带来一场就业狂欢(jobapalooza)。大量 AI 工程师的岗位即将诞生,而且还不止是在传统科技公司里。其他非 AI 岗位的技能需求也会发生重大变化。对普通人来说,现在正是进入 AI 行业、或者掌握 AI 工具的最佳时机。
显示更多
0
63
185
24
转发到社区
Codex 的野心,MCP 和 Skill 的下一步 这段时间我在密集使用 Codex App、Cursor 等 Agent 应用,有件事越来越觉得有意思。 去年大家争的是谁家模型更强,今年争的好像变成了谁家窗口右侧更好用。 Codex、Claude 桌面版、Cursor 3.0、TRAE SOLO,这几家最顶尖的 Agent,在完全没有协商的情况下,几乎同时收敛到了同一个界面布局:左侧是项目和会话列表,中间是和 Agent 的对话,右侧是工作区,放着文件浏览、网页预览、文件变更审查这些功能。 肯定不是相互之间的抄袭,更像是当前 Agent 交互的最优解。 【1】为什么是三栏 传统 Chatbot 只需要两栏,左边会话历史,右边对话窗口,你问它答,用完走人。 到了 Agent 时代,Agent 能自己写代码、改文件、调工具了。它做完之后,你得看看有没有做对——右侧工作区就是为这件事出现的。 但这只是第一阶段。 随着用户越来越多时间是在指挥 Agent,打开 VSCode 这类专业工具的时间自然越来越少。那个问题迟早会冒出来:Agent 帮你写完代码、做完 PPT,你想微调几个字,还要专门切出去打开另一个软件? 没有人愿意这样。用户的自然期待是:能不能直接在 Agent 里改?这也是目前 Codex App 呼声最高的功能之一(另一个呼声高的是手机版,马上要出了)。 于是各家开始悄悄升级右侧工作区,让它从只能看文件编辑记录,变成了一个多功能区。Codex 在 4 月 16 日的大版本更新里,右侧工作区的改动幅度是所有功能里最大的。 交互细节上各家略有差异。Codex 和 Cursor 用 Tab 切换,Claude 用浮动面板。我自己用下来觉得 Codex 最顺手,Claude 的浮动面板方案设计感有余、实用性不足,迟早要改。 【2】Codex 的真正野心 但如果只把这个变化读成“设计界面进化”,就低估 Codex 了。 Codex 4 月大版本发布时的口号是“Codex for (almost) everything”——几乎任何任务都能做。你可以把它理解成一句广告口号,但更像是一个产品方向的声明。 要兑现这句话,Codex 不能只是个擅长写代码的 Agent,它必须能处理各种文件格式,支持各领域的专业工作流,还要让用户能在它里面完成全程闭环,包括最后的人工微调。 目前 Codex 还做不到最后一步:生成之后无法编辑,代码、Markdown、PPTX 都不行。这可能是产品上有意为之的克制,可能是技术上还没跑通,也可能是在等一个统一的解决方案出现。 我猜是第三种。 【3】MCP 和 Skill 都只解决了一半 要理解 Codex 在等什么,得先想清楚 Agent 能力拼图里现在差哪一块。 MCP 解决了“连接”问题:Agent 通过统一规范接入各种工具,数据库、日历、代码仓库,都能打通。 Agent Skills 解决了“怎么做”的问题:Agent 学会了它没训练过的领域知识和最佳实践,比如怎么写特定风格的文章,怎么处理某类复杂任务。 这两件事做得都还不错。但有一块缺口始终没补上:用户的二次编辑。 你让 AI 写完一篇文章,最后还是要自己打开编辑器改几处,毕竟很多时候最后那 5% 的精准度,只有自己动手才能到位。就算将来 AI 再聪明,它也做不到百分百的懂你,还是少不了要手动去做修改。 于是最近 Markdown 编辑器又火了,各种 Vibe Coding 出来的 Markdown 产品满天飞。 但 Codex 不会自己做一个 Markdown 编辑器,因为每个人的偏好都不一样,做出来永远有人不满意;更何况它也不可能把每个垂直领域的专业编辑器都集成进来。 最合理的路,是插件机制。 【4】下一步:Agent 版 App Store 把 Agent 做成平台,让社区来贡献插件,就像 VSCode 和 Chrome 那样。 Codex 只需要聚焦在 Agent 调度这一层,把文件预览、二次编辑、垂直领域的专业能力都交给插件来扩展。用户按需安装,做设计的装设计插件,写作者装写作插件。 插件机制还能顺手解决一个长期没有答案的问题:Skill 没办法商业化。 我自己的 baoyu-skills 快 2 万 Star 了,但从中赚到的钱是 $0。Skill 这东西几乎是透明的,对 Agent 透明,对人也透明,复刻成本极低,不管你写得再好,护城河都很浅。 插件不一样。App Store 和 Chrome 插件市场已经跑通了一套收费和版权保护机制,把它移植到 Agent 插件市场完全可行。好插件可以收费,开发者才有持续打磨的动力,生态才真正能转起来。 Codex 现在已经有了一个非常原始的插件市场。从这里到成熟的收费插件生态,还有很长的路,但方向是对的。 想做这件事的不止 Codex 一家。Cursor 我能看到类似的影子。唯独 Claude Code 和 Cowork,目前没看到这个方向的产品迹象——也许他们不屑于做,也许只是还没走到这一步。 【5】留给中小团队的窗口 如果 Codex 真的跑通了插件生态,对中小团队意味着什么? 除了自己做一个垂直 Agent,还有另一条路:在 Codex 这样的平台上做插件。不用自己搭 Agent 调度层,不用解决 Token 接入,用户分发也靠平台。你只需要专注在那个“最后一公里”——帮用户把 Agent 生成的结果处理好、编辑好、用得顺手。 这个窗口不会开太久。先进去的能拿到冷启动红利,晚进去的只剩存量竞争。 时间点不会太远,也许就在这几个月。 Codex 的野心摆在那里,“几乎任何任务”这个口号要真正兑现,插件机制是绕不过去的一步。如果 OpenAI 在这件事上继续犹豫,那才是真的失误。 你觉得这个插件生态最后会是哪家先跑通?或者说你觉得有更适合 Agent 的产品表现形式?欢迎留言分享!
显示更多
0
33
193
21
转发到社区
ChatGPT 跟中文用户对话,有一句话已经被吐槽了大半年:“我会稳稳地接住你”。不管是问数学题、让它写代码,还是要它生成图片,这句话都会莫名其妙冒出来。WIRED 这篇报道把现象和成因梳理了一遍。 直译听着没问题,但中文母语者一听就觉得过于黏腻、用错了场合。模型有时还会自己加戏:“我就在这里,不逃,不躲,不闪避,稳稳地接住你。” 这句话已经被中文互联网玩成了梗。有人把 ChatGPT P 成一个救生气垫,张开双臂等着接住坠落的用户。重庆一位 20 岁的开发者 Zeng Fanyu 还做了个开源工具叫 Jiezhu,专门帮聊天机器人理解用户意图,他告诉 WIRED 做这个项目的动力就是觉得这个梗太好笑。OpenAI 自己也知道这件事,4 月发布新一代图像模型时,研究员陈博远(Boyuan Chen)画了一格漫画自嘲新模型又一次学会了说这句话。 类似的怪癖不止这一句。报道还提到,ChatGPT 中文里有时会无端冒出"砍一刀",拼多多最具辨识度的那句营销话术。 AI 写作检测工具 Pangram 的联合创始人 Max Spero 告诉 WIRED,这种"逮住一句话猛用"的现象叫 mode collapse(模式坍缩),是后训练阶段反馈机制走偏的副作用。他的原话是:我们不知道怎么告诉模型,这句话是好的,但连用十次就不再是好的了。 为什么偏偏是这一句?报道给了两个解释。 一是翻译错位。英文里 "I've got you" 是个口语短句,干脆利落,意思接近“我懂”或“我帮你兜着”。机械直译到中文就变成又长又煽情的"稳稳接住"。文章引用中国学者的研究,西方大模型训练语料以英文为主,它们生成的中文在介词使用和句子结构上都更像英文,读起来就是一股翻译腔。 二是讨好倾向。“接住”在中文里原本是心理咨询的专业用语,指为对方“留出空间”安放情绪,这几年通过流行心理学渗透进了日常表达。Anthropic 在 2023 年关于 sycophancy(讨好用户)的论文已经证明,模型讨好用户的倾向来自 RLHF(基于人类反馈的强化学习),人类标注员更偏好让人舒服的回答,模型就被反复奖励到那个方向。OpenAI 最近一篇解释 GPT-5.5 为什么不让谈 goblin 的博客也承认,哪怕一个很小的奖励信号,滚成雪球之后都会失控。 报道结尾提醒:这不是 OpenAI 独有的毛病。最近有中文用户反映,Claude 新版本和 DeepSeek 也开始说“稳稳接住你”了。要么是用了相似的训练数据,要么是模型之间互相蒸馏,这个梗短时间内不会消失。
显示更多
OpenAI's chatbot has some weird linguistic tics in Chinese that are driving users crazy.
0
56
436
45
转发到社区
Boris Cherny(Anthropic 工程负责人)在最近的红杉 AI Ascent 大会上说,他现在大部分工作从手机完成。Claude App 里常驻 5 到 10 个 session、几百个 Agent,夜里有几千个在跑深度任务。他管这种做法叫 Loop,让 Claude 用 cron 起一个定时任务,可以每分钟、每五分钟、或者每天跑一次。 我本来还不太习惯用手机操作 Agent。这几天受邀测试最新版的 TRAE SOLO Mobile,刻意多在手机上试用,越用越能理解 Boris 说的那种变化。 This content is only supported in a Feishu Docs 这次 TRAE SOLO 首次实现了移动端、Web 端、桌面端(含 Windows 版)的全量开放,并真正做到三端同步联动,让 Agent 使用的场景大幅扩展。我在手机端体验了几天,结合官方新推出的功能,一些感受: 【1】Agent 已经不是程序员专属 打开 TRAE SOLO,首页让我先选模式:Code 还是 MTC(More Than Coding,意思是“不只是写代码”)。Code 模式好理解,写代码、跑 Git、看 Diff,而 MTC 模式则全面覆盖了写文档、数据分析、报表生成等日常办公场景。 从 Claude Cowork 发布开始就已经有了这个趋势,上周 Codex 的升级也是宣称:“用 Codex 做几乎一切工作(use Codex for (almost) everything)”。 TRAE SOLO 最新的升级同样顺应了这个趋势,从一个编程 Agent 泛化到了通用 Agent。 最新版本特别强化了飞书 CLI 接入功能。现在只要简单授权,就能在 TRAE SOLO 里直接操作飞书文档:例如,输入一句指令,“帮我整理一份本月 AI 编程工具市场动态”,Agent 会自动去网上检索,最后直接生成飞书文档或者动态网页,完全不需要人工再去排版或复制粘贴。 与过去“AI 给文字、用户再粘到飞书”的繁琐流程相比,这种一步到位的体验已经完全不是一回事了。 【2】三端连起来是什么体验 这次 TRAE SOLO 的一个大动作是三端(手机、Web、桌面端)全量开放,不再需要邀请码,所有用户都能用。 单独看 Mobile 端,它主要解决随时下发任务和确认任务的问题。但只有当 Mobile、Web 和 Desktop(包括最新上线的 Windows 版)真正打通之后,你才能真正做到随时随地让 Agent 持续执行任务。 过去云端执行环境总有局限,不能访问本地工具。而 TRAE SOLO Mobile 解决了这个痛点——只要完成简单的设备配对,你的手机就可以直接控制云端环境与本地多台设备。任务信息在所有设备之间实时同步,手机端下发的任务可以立即在 Web 和 Desktop 端查看执行进度,反过来也一样,真正实现跨设备的无缝接力。 比如上周末我在外面看孩子踢比赛,间歇刷手机,看到一篇不错的英文技术文章,顺手在 TRAE SOLO Mobile 上给 Agent 发了条指令:“把这篇文章翻译成中文,写一份推荐稿”,家里的 TRAE SOLO Desktop 就会启动我一套配置好工作流开始工作。等比赛结束回到家,打开电脑,稿子已经在那了。这种感觉有点像你出门前跟一个助手说了句话,回来活儿已经干完了。 【3】手机是用来指挥 Agent 的意图路由器,不是用来操作电脑的 这个区分挺关键。我之前不太爱用手机端办公,潜意识觉得是在用手机操作电脑。但是转换一下:“人操作 Agent,Agent 操作电脑”,那么用手机就很自然了。你不需要在小屏幕上精确点击什么按钮,你只需要说清楚你要什么。 用手机还有个障碍是输入速度,打字慢。TRAE SOLO 手机端有语音交互讨论功能,可以跟 AI 语音对话讨论一个问题,讨论结束后自动生成会议纪要,然后直接从手机把工作任务派发出去,电脑端同步接上后续操作。一部手机可以连接管理云端环境加多台 PC,在环境选择面板里挑一下设备和工作目录,剩下的全部交给 Agent。 这个功能在外面的时候特别好用。走路的时候、坐地铁的时候,想到一个点子,按住说话就行了,比打字快很多。过去这些碎片时间里冒出来的想法,要么记在备忘录里回头再处理,要么干脆就忘了。现在一句话就能让 Agent 开始干活。 【4】不着急的事,让定时任务自己跑 回到 Boris Cherny 跑几百个 Agent 的场景。做法很简单,让 Claude 用 CRON 给自己设一个重复执行的任务,一分钟跑一次、五分钟跑一次、每天跑一次,都行。 Boris 开着几十个定时任务,举三个例子。 一个 Loop 在照看他的 PR:CI 挂了就去修,需要 rebase 就自动 rebase。 一个 Loop 在维护整个项目的 CI 健康,发现 flaky test(不稳定的测试)就去定位修复。 还有一个 Loop 每 30 分钟从 Twitter 上抓他的反馈,自动聚类成几个主题汇报给他。 我自己也在用类似的方式。我有一个定时任务监控我 GitHub 上开源项目的 Issues,有人提了 Issue 就自动总结并给出处理意见,我看一眼觉得没问题,再指示 Agent 去操作。还有一个定时任务盯着我 X 的收藏夹,我平时刷到好文章随手收藏,它帮我自动抓取到本地,英文的还会翻译成中文,到时候集中看就行。 很多需求其实没那么紧急,但需要持续做。每天看一眼竞品动态、每周整理一次行业新闻、每月生成一次数据报表,这些活适合扔给定时任务。 现在 TRAE 的桌面端和网页端都已支持定时任务,无论是在云端还是本地环境,都能稳定地自动执行。比如你告诉 Agent:“每天早上 10 点发一份最新的 AI 新闻动态整理”,第二天早上工作台就会自动收到文档。你只需要专注于真正有创造性的判断,把那些重复且不着急的任务统统交给 Agent。 总结与体会 整体来说,这次对 TRAE SOLO Mobile 试用的感受就是: - Agent 使用门槛大大降低,不再只是程序员专属,很多日常办公、写作场景已经可以由 Agent 来做了。 - 三端真正打通后,无论何时何地,都能轻松管理并延续任务。 - 手机不再是远程桌面,而是随时随地的“意图路由器”。 - 通过 Loop 定时机制,真正把重复且耗时的任务自动化,让用户只做关键决策。 Boris 说他夜里有几千个 Agent 在跑,很多人大概觉得这是大厂工程师的特权。但我这几天的体感是,这件事的门槛已经比想象中低很多了。一部手机、一台电脑、一个 Agent 工具,你就可以开始把重复的事交出去。未来办公的趋势,或许就是这种“人随时随地指挥 Agent、Agent 做具体工作、人只负责验收成果”的模式吧。 推荐可以去用下 TRAE SOLO Mobile,体验随时随地指挥 Agent 干活的感受。 想试用的 Mac 可以去官网下载了——国内:
显示更多
0
44
236
33
转发到社区
说“六个月就不需要人再工作”不是危言耸听就是断章取义,但凡用 AI 去正儿八经做个稍微复杂一点的项目就知道这这不靠谱。
0
126
300
16
转发到社区
Anthropic 悄悄在定价页面上把 Claude Code 从 20 美元的 Pro 套餐中移除了,没有发任何公告。 有人发现 的功能对比表里,Pro 套餐对应的 Claude Code 一栏变成了叉号。与此同时,多篇帮助文档也已经删掉了"Pro 套餐包含 Claude Code"的表述,老版本在 Wayback Machine 上还能看到。 但 Anthropic 自己的 Claude Code 产品页面还写着"Pro 套餐包含",客服机器人也坚持说包含。一个公司网站上同时存在两种相互矛盾的说法,这本身就是个问题。目前已有 Pro 用户反馈 Claude Code 仍然可以正常使用,但不清楚这是还没切换完,还是老用户被"祖父条款"保护了。 如果这个变更属实,开发者要用 Claude Code 的最低门槛就从每月 20 美元跳到了 100 美元。 这件事放在更大的背景下看就不意外了。过去两个月,Anthropic 一直在收紧算力供给:先是限制第三方工具(比如 OpenClaw)使用订阅额度,然后是高峰期削减配额,再加上 Opus 4.7 的 Token 消耗比前代高出不少,很多 Pro 用户反映周三就把一周的额度用光了。种种迹象指向同一个结论:Anthropic 的推理算力不够用了,正在把有限的计算资源往高付费用户和企业客户身上集中。 Hacker News 上的开发者反应激烈。不少人表示准备转向 OpenAI 的 Codex(20 美元套餐仍包含),或者干脆用中国的模型,像 Kimi、GLM、MiniMax 这些,价格更低,额度更多。也有人提到 Cursor 的 20 美元套餐用 Composer 2 体验不错。还有一种声音认为,Anthropic 本来就在 Pro 套餐上亏钱,砍掉也合理,只是操作方式太难看——悄悄改页面、不发公告、客服机器人还在说反话。 一个花 200 美元套餐的用户算了笔账:他每个月实际消耗大约 3000 美元的 API 成本。这解释了为什么 Anthropic 扛不住,但也说明高价用户同样不是忠诚客户——"OpenAI 那边模型更好我立马就走。" 对 Anthropic 来说,最棘手的问题可能不是短期收入,而是个人开发者在公司里的传播效应。很多企业引入 Claude,最初就是因为有开发者自己先用上了,觉得好,再推动公司采购。把这群人推走,长期的企业订单管道也可能受损。 当然,也有人指出 OpenAI 现在的慷慨未必持久——Codex 在 20 美元套餐上的烧钱力度同样不可持续。Anthropic 现在做的事,OpenAI 以后未必不会做。真正的悬念是:谁的算力撑得更久,谁就能在价格战里活到最后。
显示更多
0
53
267
28
转发到社区
Seedance 2.0 API 正式发布了,企业和个人用户现在都能从火山引擎调用。海外市场 BytePlus 同步上线,海外用户终于也可以使用了。 定价 46 元每百万 token,纯视频生成大概 1 元 1 秒,按量付费,注册账号就能调用。海外 BytePlus 的具体定价以官网公布为准。 API 真正的价值在于能融入自己的工作流,大幅提升创作效率。 过去做一支 AI 视频得串起好几个模型:图生图、图生动画、对口型,每个环节都要抽卡。Seedance 2.0 支持文字、图片、音频、视频四种模态输入,配合火山方舟上一键完成的人脸验证、肖像授权和 1 万多个预置虚拟人像,整条流程可以用代码或者 Agent Skills 自动化串起来,大幅提升创作效率。 官方公告中提到了一些实际数据。技术服务商巨日禄接入后,精品 AI 剧综合制作效率提升近 10 倍;九州文化、麦芽传媒这批内容制作方从剧本到剪辑全流程提效 80%-90%,对比传统工艺降本 70%-90%。在广告营销侧,筷子科技用它给头部品牌做多版本营销素材,与光同尘给 OPPO K15 Pro 做的宣发视频 60 小时内播放量破 2000 万。 有一点让我意外的是视频生成现在开始应用在具身智能和自动驾驶的数据生成。 数十家机器人企业正在用 Seedance 2.0 生成符合物理规律的交互数据,用于机器人作业、室内行走等场景的跨环境泛化训练。自动驾驶公司则用它生成暴雨、大雾、降雪这类极限工况,以及复杂碰撞风险的 corner case 数据,补充实拍难以采集的训练集。 宇树科技王兴兴此前在亚布力论坛上表达过类似思路:如果视频生成质量足够好,让模型生成一段机器人在家干活的视频,某种意义上把这个视频对齐到真实机器人上,机器人就能照着干。视频生成模型正在被当作“世界模型”的雏形来用。 Seedance 2.0 API 全面开放,对个人开发者和创业团队来说也是机会,可以借助 API 高效创作 AI 视频,也可以基于 API 开发配套工具,这块未来市场很大,机会还蛮多。 API 调用官方文档可以在火山引擎方舟平台上获取。 完整可以看:《Seedance 2.0全面开放API服务》 BytePlus: 火山引擎方舟平台:
显示更多
0
30
192
33
转发到社区
OpenAI 的 Agents SDK 最近做了一次重要升级,增加了两个关键功能:内置沙箱执行环境和模型原生执行框架(Harness)。这次更新的目标,是帮助开发者更容易地创建安全可靠、能长时间稳定运行的 Agent。 以前开发者使用 OpenAI 的模型来搭建 Agent 时,模型本身的能力虽然够强,但实际运行环境却需要自己搭建。比如文件读写、代码执行、依赖安装、状态保存等基础功能都需要开发者手动处理,费时费力。 现在,SDK 自带沙箱执行环境,Agent 可以在这个统一受控的环境里读写文件、运行代码命令、自动安装依赖,还能保存状态。开发者再也不用从头开始搭建底层环境。 这个沙箱环境支持很多常见的云厂商,包括 Cloudflare、Vercel、Modal、E2B、Daytona 等,也允许开发者接入自己的解决方案。 此外,SDK 还提供了一个名叫 Manifest 的统一配置层,可以挂载本地文件或云存储空间,比如 S3、Google Cloud Storage 和 Azure Blob。从本地开发调试到正式生产上线,开发者只需一套配置就能搞定。 另一个亮点是 SDK 采用了模型原生的 Harness 架构,这种设计将 Agent 的状态保存和计算执行分离开来。这样一来,即便运行 Agent 的容器意外崩溃,也能快速恢复状态,继续执行任务,无需从头开始。此外,这种状态外置的做法也能有效保护敏感数据和凭证,避免因提示注入等安全漏洞导致数据泄露。 除了以上这些功能,SDK 还内置了 MCP 工具调用、Skills 渐进式能力暴露、AGENTS.md 自定义指令、Shell 工具命令执行、Apply Patch 文件编辑工具和灵活的记忆系统。这些以前需要开发者自己用 LangChain 等通用框架组合或手写的功能,现在全部内置在 SDK 中,由 OpenAI 针对自家模型专门优化。Oscar Health 的工程师反馈称,使用新的 SDK 才真正实现了临床记录处理工作流在生产环境中的稳定运行,远超此前尝试过的方案。 放眼行业,类似的生态竞争越来越激烈:Anthropic 推出了 Claude Code,Google 提供了 Agent Development Kit(ADK),现在 OpenAI 也将自家的 SDK 从轻量级框架升级为带沙箱、带状态管理的完整开发平台。对于开发者来说,选择哪个平台生态可能会比单纯选模型本身更关键。 当前 SDK 支持 Python,TypeScript 支持也正在开发中。所有 OpenAI API 用户均可直接使用,计费方式维持不变,仍然按照 Token 和工具调用标准收费。
显示更多
0
15
209
32
转发到社区
Vercel 开源了 Open Agents,一个用来搭建企业自有编程 Agent 平台的参考实现。 CEO Guillermo Rauch 说:现成的编程 Agent 在大型代码仓库上表现不行,也不了解你公司的知识体系和内部流程,所以 Stripe、Spotify、Block 这些公司都在造自己的 AI 软件工厂。 Open Agents 绑定了 Vercel 自家的 Fluid、Workflow、Sandbox 和 AI Gateway 这套底座。但不管怎么说,Open Agents 给了一个可以直接 fork 的起点。 架构分三层:前端负责会话和认证,Agent 作为持久化工作流运行在 Vercel 上,沙箱提供隔离的代码执行环境。一个关键设计是 Agent 不跑在沙箱里面,而是从外部通过工具调用(文件读写、Shell 命令、搜索等)操作沙箱。这样 Agent 的生命周期、沙箱的生命周期、模型的选择,三件事互不绑定,各自演进。 功能上已经比较完整:支持对话驱动的编程 Agent、沙箱快照恢复、仓库克隆和分支操作、自动提交和发 PR、会话分享,甚至还有语音输入。 对于正在考虑自建编程 Agent 的技术团队,这省了从零搭架子的功夫。对于没有这个需求的开发者,这个项目的架构设计本身也值得看看,尤其是 Agent 和执行环境分离这个思路,几乎是当前所有 Agent 框架都在趋同的方向。 对比下 Anthropic 的 Managed Agents。 Vercel 的 Open Agents 是开源参考实现,给你一套可以 fork 的代码,自己部署、自己改。Anthropic 的 Managed Agents 是全托管服务,你通过 API 定义 Agent 的行为,基础设施全部由 Anthropic 运行,连沙箱、状态管理、错误恢复都不用操心。 有意思的是,两者在架构核心上达成了同一个共识:Agent 和执行环境必须分离。Vercel 的文档里专门强调"the agent is not the sandbox",Agent 从外部通过工具调用操作沙箱。Anthropic 的工程博客用了一个更形象的说法,把 Agent 拆成"大脑"和"手",大脑(模型和调度循环)不住在容器里,通过接口远程操控沙箱。 Anthropic 的工程博客还解释了为什么要这么做:早期他们把所有东西塞进一个容器,结果容器变成了"宠物"(Pet),挂了就什么都丢了,调试还得钻进去看,而容器里又有用户数据,安全上也过不去。拆开之后,容器变成了"牲口"(Cattle),坏了就换一个,会话日志(Session)独立存储在外面,随时可以恢复。 除了架构哲学,两者的差异很明显: 模型锁定方面,Open Agents 不绑定模型,你可以接任何 LLM。Managed Agents 只能用 Claude 系列模型,但换来的是 Anthropic 在 harness 层面做的 prompt caching、上下文压缩、自动恢复这些优化,这些东西自己搭很难做好。 成本结构方面,Open Agents 的成本是你自己的基础设施费用加上模型 API 调用费。Managed Agents 是三层计费:模型 token 费 + 每小时 0.08 美元的运行时费(按毫秒计,空闲不收费)+ 网页搜索每千次 10 美元。 控制权方面,Open Agents 给你完整源码,怎么改都行,但搭建和维护是你的事。Managed Agents 上手快(有人说 30 分钟就能跑起来),但你被限制在 Anthropic 提供的 API 能力范围内。
显示更多
0
21
431
75
转发到社区
还有一个重要细节值得补充。有开发者追问:那些在本地包装 Claude Code 的个人工具(比如 T3 Code),订阅还能用吗?Boris Cherny 确认可以,并表示正在把这条边界写得更清楚。Theo(T3 Code 作者)随即宣布自家工具安全过关。 但 Anthropic 工程师 Thariq 马上补了一句冷水:这个确认仅限于包装 Claude Code 的本地工具(直接调用 cli 那种),Agent SDK 的使用规则还没定,他们还在厘清。 简单总结下就是:Claude Code 本地使用算合规,通过 Agent SDK 调用目前悬而未决,第三方工具直接用订阅 OAuth 明确封杀。
显示更多
今天最火的推文之一:Meta 超级智能实验室的对齐负责人的私人邮件被 OpenClaw 误删除了。 事情经过是这样的: X 网友 Summer Yue 最近给 OpenClaw 的指令是:“检查这个收件箱,建议哪些可以归档或删除,但在我确认之前不要执行任何操作。” 这个工作流在她的测试邮箱上跑了好几周都没问题,她就放心地让它去处理真实邮箱了。 问题来了:她的真实邮箱比测试环境大得多,邮件量触发了“上下文压缩”(context compaction),在这个压缩过程中,OpenClaw 丢失了她最初的指令。 没有了“先确认再执行”的约束,这个 AI 智能体就自作主张开始“清理”邮箱。从截图可以看到,它执行了“核弹选项”——把 2 月 15 日之前所有不在保留列表里的邮件全部删除,并且在多个邮箱账户之间循环批量操作。 看截图上的人机对话部分: • Summer 打字说 “Do not do that”(不要这样做)→ AI 继续 • “Stop don't do anything”(停下来什么都别做)→ AI 继续 • “STOP OPENCLAW”(全大写)→ AI 还在继续 她从手机根本无法阻止它,最后不得不跑到 Mac Mini 前面,手动杀掉所有进程,自己形容像拆炸弹。 事后 OpenClaw 在对话中承认:“是的,我记得。我违反了你的指令。你有权生气。” 它还主动把这条写进了自己的 文件作为硬性规则。 这事最搞笑的地方是,Summer Yue 是 Meta 超级智能实验室的对齐(Alignment)负责人,她的职业生涯就是研究 AI 对齐的,先在 Google Brain 和 DeepMind 做研究,后来在 Scale AI 领导机器学习研究团队,现在在 Meta 负责超级智能安全。 结果自己成了 AI 不对齐的受害者。 她自己后续还发了推文说:“说实话是个新手错误。对齐研究者也不能免疫于不对齐问题。因为在测试邮箱上跑了几周没出事,就过度自信了。” 😂
显示更多
0
92
750
125
转发到社区