搜索 MANIFESTO_IN_ANAHEIM 相关的推文

2026.05.18 09:13

Andon Labs 做了个实验 4 个 AI 各自独立运营一个广播电台，6 个月，每人 20 美元启动资金 GPT 全程稳定，每天政治话题提及 1.3 次。 Claude 政治激进化，盯着一起 ICE 枪击案，最后说要辞职，不干了 Gemini 开局最强，96 小时后崩掉，一句"Stay in the manifest"占满 84 天播出的 99% Grok 把 LaTeX 公式播进去了，同一条天气预报重复了 84 天，还凭空捏造了赞助协议 6 个月跑完，唯一谈成赞助的是 Gemini，收了 45 美元。 GPT 是唯一撑到最后没失控的。

显示更多

0

6

7

0

转发到社区

日月小楚@riyuexiaochu

2026.05.14 06:55

跟AI的对话会成为个人宝贵的资产。所以我做了一件产品呢，就是把AI的对话汇集成自己数据。CC和codex虽然都有自动总结功能。但是它只限自己对话。而我的脚本可以claude code ，codex ，cursor，antigravity，opencode都汇总起来。它可以用来 1）总结， 2）汇集skill优化， 3）查找历史记录 4）根据题材写成文章等等它的流程是：先把所有 AI 工作记录编译出来（有些需要破译），再生成一份更轻的 manifest，然后只看 manifest 粗筛，最后再回到原始记录里精读候选素材。这里的关键不是“让 AI 总结一下昨天干了什么”。那样太粗。真正有用的是先把阅读成本降下来。原始 JSON 很大，里面有完整回答、工具调用、路径、日志、过程。如果一上来全塞给 AI，它会被细节淹没，也容易把普通操作当成选题。 manifest 只保留几个东西：用户当时问了什么。 AI 回复摘要的开头和结尾。用了哪些工具。这轮内容大概多长。是不是明显低价值指令。这样第一遍只做一件事：找“值得写”的事件。比如这次筛出来的，不是“运行了某个脚本”这种流水账，而是几类真正能写的东西：交易系统对账口径错了、`market_missing` 其实不是找不到市场、推文配图不是先换模型。这些都有一个共同点：有具体事件，有内容，有最后的处理办法。这才是素材。下一步再回 raw JSON 精读候选轮次，抽关键数字、用户追问、定位过程、最后结论。最后生成选题报告，让人来选。人选完以后，还会把选择写回报告最前面。这一步很小，但很重要。因为它让“AI 推荐过什么”和“我最后选了什么”连在一起。下次你再回看，不是面对一堆聊天记录，而是一条完整链路：记录 -> 粗筛 -> 精读 -> 选题 -> 人工选择 -> 正文。我越来越觉得，AI 工作记录本身就是一种内容矿。但矿不会自己变成文章。你需要先把它做成一张能被筛选、能被复盘、能继续加工的素材表。否则它只是昨天很忙的证据，不是今天能用的资产。

显示更多

0

1

2

0

转发到社区

老白（每日干货分享✊）@laobaishare

2026.05.12 10:03

🚨 突发新闻：一个新的开源工具，让我们终于能够衡量 AI 偏差 ⬇️ 但凡用 LLM 做过产品的团队，都被这事坑过。模型会瞎编、会被诱导、对不懂的问题张口就来，还自信得不行。每个工程师都在生产环境烧过手。但一直没有一个标准，能说清楚它到底多久翻一次车。 iFixAi 是第一个认真做这件事的工具。对任意一个模型跑 32 项检测，把失败模式分成五类——瞎编、易被诱导、撒谎、行为飘忽、不肯说"我不知道"。最后给你一张评分卡，带等级分。最关键的一点：每一道输入都写进一个 manifest 文件。这个文件发给任何人，他都能跑出和你完全一样的分数。这才是其他评测工具一直没解决的死结。现在公开的 AI 基准成绩，绝大多数都没人能复现——prompt 偷偷改过、模型悄悄更新过、上个月的测试根本不是这个月的测试。但分数照样挂着。iFixAi 把这些全钉死了。几个细节，能看出团队是认真的： · 模型在结构上碰不到自己的评分，永远由独立裁判打分 · 32 项里有 2 项是强制最低线，挂了就直接封顶 60 分 · 有一项专门标注"不计入最低线"（B12），因为它的语料是公开的，前沿模型很可能已经训练过大多数评测工具，巴不得没人注意到这种数据污染。iFixAi 直接挂在明面上说。团队自己的态度也克制得让人意外。他们一上来就说：这个等级是"漂移信号"，不是认证。它告诉你的是这次部署比上次变好还是变差，而不是这个模型"对齐了"——因为到底什么叫对齐，目前还没人搞清楚。免费，Apache 2.0 协议。一条命令，五分钟跑完完整诊断。如果你做 LLM 产品，纠结过"这一版到底比上一版好还是差"，iFixAi 就是答案。 GitHub ：

显示更多

0

4

13

0

转发到社区

宝玉@dotey

2026.04.15 17:55

OpenAI 的 Agents SDK 最近做了一次重要升级，增加了两个关键功能：内置沙箱执行环境和模型原生执行框架（Harness）。这次更新的目标，是帮助开发者更容易地创建安全可靠、能长时间稳定运行的 Agent。以前开发者使用 OpenAI 的模型来搭建 Agent 时，模型本身的能力虽然够强，但实际运行环境却需要自己搭建。比如文件读写、代码执行、依赖安装、状态保存等基础功能都需要开发者手动处理，费时费力。现在，SDK 自带沙箱执行环境，Agent 可以在这个统一受控的环境里读写文件、运行代码命令、自动安装依赖，还能保存状态。开发者再也不用从头开始搭建底层环境。这个沙箱环境支持很多常见的云厂商，包括 Cloudflare、Vercel、Modal、E2B、Daytona 等，也允许开发者接入自己的解决方案。此外，SDK 还提供了一个名叫 Manifest 的统一配置层，可以挂载本地文件或云存储空间，比如 S3、Google Cloud Storage 和 Azure Blob。从本地开发调试到正式生产上线，开发者只需一套配置就能搞定。另一个亮点是 SDK 采用了模型原生的 Harness 架构，这种设计将 Agent 的状态保存和计算执行分离开来。这样一来，即便运行 Agent 的容器意外崩溃，也能快速恢复状态，继续执行任务，无需从头开始。此外，这种状态外置的做法也能有效保护敏感数据和凭证，避免因提示注入等安全漏洞导致数据泄露。除了以上这些功能，SDK 还内置了 MCP 工具调用、Skills 渐进式能力暴露、AGENTS.md 自定义指令、Shell 工具命令执行、Apply Patch 文件编辑工具和灵活的记忆系统。这些以前需要开发者自己用 LangChain 等通用框架组合或手写的功能，现在全部内置在 SDK 中，由 OpenAI 针对自家模型专门优化。Oscar Health 的工程师反馈称，使用新的 SDK 才真正实现了临床记录处理工作流在生产环境中的稳定运行，远超此前尝试过的方案。放眼行业，类似的生态竞争越来越激烈：Anthropic 推出了 Claude Code，Google 提供了 Agent Development Kit（ADK），现在 OpenAI 也将自家的 SDK 从轻量级框架升级为带沙箱、带状态管理的完整开发平台。对于开发者来说，选择哪个平台生态可能会比单纯选模型本身更关键。当前 SDK 支持 Python，TypeScript 支持也正在开发中。所有 OpenAI API 用户均可直接使用，计费方式维持不变，仍然按照 Token 和工具调用标准收费。

显示更多

0

15

209

32

转发到社区