注册并分享邀请链接,可获得视频播放与邀请奖励。

搜索结果 MANIFESTO_IN_ANAHEIM
MANIFESTO_IN_ANAHEIM 贴吧
一个关键词就是一个贴吧,路径全站唯一。
创建贴吧
用户
未找到
包含 MANIFESTO_IN_ANAHEIM 的推特
Andon Labs 做了个实验 4 个 AI 各自独立运营一个广播电台,6 个月,每人 20 美元启动资金 GPT 全程稳定,每天政治话题提及 1.3 次。 Claude 政治激进化,盯着一起 ICE 枪击案,最后说要辞职,不干了 Gemini 开局最强,96 小时后崩掉,一句"Stay in the manifest"占满 84 天播出的 99% Grok 把 LaTeX 公式播进去了,同一条天气预报重复了 84 天,还凭空捏造了赞助协议 6 个月跑完,唯一谈成赞助的是 Gemini,收了 45 美元。 GPT 是唯一撑到最后没失控的。
显示更多
跟AI的对话会成为个人宝贵的资产。 所以我做了一件产品呢,就是把AI的对话汇集成自己数据。CC和codex虽然都有自动总结功能。但是它只限自己对话。 而我的脚本可以claude code ,codex ,cursor,antigravity,opencode都汇总起来。 它可以用来 1)总结, 2)汇集skill优化, 3)查找历史记录 4)根据题材写成文章等等 它的流程是:先把所有 AI 工作记录编译出来(有些需要破译),再生成一份更轻的 manifest,然后只看 manifest 粗筛,最后再回到原始记录里精读候选素材。 这里的关键不是“让 AI 总结一下昨天干了什么”。 那样太粗。 真正有用的是先把阅读成本降下来。原始 JSON 很大,里面有完整回答、工具调用、路径、日志、过程。如果一上来全塞给 AI,它会被细节淹没,也容易把普通操作当成选题。 manifest 只保留几个东西: 用户当时问了什么。 AI 回复摘要的开头和结尾。 用了哪些工具。 这轮内容大概多长。 是不是明显低价值指令。 这样第一遍只做一件事:找“值得写”的事件。 比如这次筛出来的,不是“运行了某个脚本”这种流水账,而是几类真正能写的东西:交易系统对账口径错了、`market_missing` 其实不是找不到市场、推文配图不是先换模型。 这些都有一个共同点:有具体事件,有内容,有最后的处理办法。 这才是素材。 下一步再回 raw JSON 精读候选轮次,抽关键数字、用户追问、定位过程、最后结论。最后生成选题报告,让人来选。 人选完以后,还会把选择写回报告最前面。 这一步很小,但很重要。因为它让“AI 推荐过什么”和“我最后选了什么”连在一起。下次你再回看,不是面对一堆聊天记录,而是一条完整链路: 记录 -> 粗筛 -> 精读 -> 选题 -> 人工选择 -> 正文。 我越来越觉得,AI 工作记录本身就是一种内容矿。 但矿不会自己变成文章。 你需要先把它做成一张能被筛选、能被复盘、能继续加工的素材表。否则它只是昨天很忙的证据,不是今天能用的资产。
显示更多
🚨 突发新闻:一个新的开源工具, 让我们终于能够衡量 AI 偏差 ⬇️ 但凡用 LLM 做过产品的团队,都被这事坑过。 模型会瞎编、会被诱导、对不懂的问题张口就来,还自信得不行。每个工程师都在生产环境烧过手。但一直没有一个标准,能说清楚它到底多久翻一次车。 iFixAi 是第一个认真做这件事的工具。 对任意一个模型跑 32 项检测,把失败模式分成五类——瞎编、易被诱导、撒谎、行为飘忽、不肯说"我不知道"。最后给你一张评分卡,带等级分。 最关键的一点:每一道输入都写进一个 manifest 文件。 这个文件发给任何人,他都能跑出和你完全一样的分数。 这才是其他评测工具一直没解决的死结。 现在公开的 AI 基准成绩,绝大多数都没人能复现——prompt 偷偷改过、模型悄悄更新过、上个月的测试根本不是这个月的测试。但分数照样挂着。iFixAi 把这些全钉死了。 几个细节,能看出团队是认真的: · 模型在结构上碰不到自己的评分,永远由独立裁判打分 · 32 项里有 2 项是强制最低线,挂了就直接封顶 60 分 · 有一项专门标注"不计入最低线"(B12),因为它的语料是公开的,前沿模型很可能已经训练过 大多数评测工具,巴不得没人注意到这种数据污染。iFixAi 直接挂在明面上说。 团队自己的态度也克制得让人意外。 他们一上来就说:这个等级是"漂移信号",不是认证。它告诉你的是这次部署比上次变好还是变差,而不是这个模型"对齐了"——因为到底什么叫对齐,目前还没人搞清楚。 免费,Apache 2.0 协议。一条命令,五分钟跑完完整诊断。 如果你做 LLM 产品,纠结过"这一版到底比上一版好还是差",iFixAi 就是答案。 GitHub :
显示更多
OpenAI 的 Agents SDK 最近做了一次重要升级,增加了两个关键功能:内置沙箱执行环境和模型原生执行框架(Harness)。这次更新的目标,是帮助开发者更容易地创建安全可靠、能长时间稳定运行的 Agent。 以前开发者使用 OpenAI 的模型来搭建 Agent 时,模型本身的能力虽然够强,但实际运行环境却需要自己搭建。比如文件读写、代码执行、依赖安装、状态保存等基础功能都需要开发者手动处理,费时费力。 现在,SDK 自带沙箱执行环境,Agent 可以在这个统一受控的环境里读写文件、运行代码命令、自动安装依赖,还能保存状态。开发者再也不用从头开始搭建底层环境。 这个沙箱环境支持很多常见的云厂商,包括 Cloudflare、Vercel、Modal、E2B、Daytona 等,也允许开发者接入自己的解决方案。 此外,SDK 还提供了一个名叫 Manifest 的统一配置层,可以挂载本地文件或云存储空间,比如 S3、Google Cloud Storage 和 Azure Blob。从本地开发调试到正式生产上线,开发者只需一套配置就能搞定。 另一个亮点是 SDK 采用了模型原生的 Harness 架构,这种设计将 Agent 的状态保存和计算执行分离开来。这样一来,即便运行 Agent 的容器意外崩溃,也能快速恢复状态,继续执行任务,无需从头开始。此外,这种状态外置的做法也能有效保护敏感数据和凭证,避免因提示注入等安全漏洞导致数据泄露。 除了以上这些功能,SDK 还内置了 MCP 工具调用、Skills 渐进式能力暴露、AGENTS.md 自定义指令、Shell 工具命令执行、Apply Patch 文件编辑工具和灵活的记忆系统。这些以前需要开发者自己用 LangChain 等通用框架组合或手写的功能,现在全部内置在 SDK 中,由 OpenAI 针对自家模型专门优化。Oscar Health 的工程师反馈称,使用新的 SDK 才真正实现了临床记录处理工作流在生产环境中的稳定运行,远超此前尝试过的方案。 放眼行业,类似的生态竞争越来越激烈:Anthropic 推出了 Claude Code,Google 提供了 Agent Development Kit(ADK),现在 OpenAI 也将自家的 SDK 从轻量级框架升级为带沙箱、带状态管理的完整开发平台。对于开发者来说,选择哪个平台生态可能会比单纯选模型本身更关键。 当前 SDK 支持 Python,TypeScript 支持也正在开发中。所有 OpenAI API 用户均可直接使用,计费方式维持不变,仍然按照 Token 和工具调用标准收费。
显示更多
0
15
209
32
转发到社区