搜尋提示词工程相關推文

2026.05.26 23:01

什么?! skill 也能"训练"了? 以往大家都是凭经验让AI写 skill, 然后调试的时候也是运行几下感觉没bug就完事了. 但 skill 能运行就一定好吗? 于是微软联合上交复旦同济等机构发了一个新框架 SkillOpt, 直接让AI评估skill写的好不好然后不断去优化! 最终, 这个框架写的 skill 让GPT-5.5的直接对话准确率飙升了 23.5分! 这个框架具体是怎么做的也很简单, 让skill迭代过程实现 harness 闭环! 大模型写完 skill 后, 立刻进入跑分流程, 只有得分更高的 skill 变更才会留下来. 跟大模型的强化学习过程如出一辙. 框架的设计也很值得做 Agent 框架的同学借鉴, 比如: 它设计了一个独立的优化器模型, 这个模型是用来写 skill 的, 它会根据 Agent 执行任务的试错表现得分, 对 skill 进行编辑操作(增加、删除、替换文本). 然后就是 harness 流程了：每一次文本编辑都必须在独立的验证集上分数有提升, 才会允许合并. 最后, 也是最精彩的地方, 框架还引入深度学习训练机制, 设计了文本层的学习率预算, 这个的核心就是限制大模型每次只能修改skill的一小部分, 慢慢迭代, 而不是全都重写. 论文中最有价值的数据就在这里, 论文实验发现, 每一步设置 4 到 8 个编辑操作的预算效果最好. 最终的最佳 skill 往往只包含 1 到 4 个被接受的核心修改. 甚至他们还设计了被拒编辑缓冲区, 用来存储训练过程的反面胶材, 以及周期性慢速/元更新, 这个则是跑完一个周期后, 会进行一次盘点, 类似于让框架形成记忆, 能更好的维持后续迭代. 这篇论文的结论十分深刻: skill(prompt) 完全配得上, 也需要一套系统级的训练流程. 原文中的描述直接是: 我们主张, skill 应当作为 Agent 的外部冻结状态来被"训练", 并且训练过程还要"让权重空间优化具有可重复性"! 这是不是意味着, 提示词工程(Prompting)和模型训练(Training) 的界限将逐渐变得模糊? 而提示词工程完全进入了机器学习的领域. 也许很快, 我们再也不需要人类去手动瞎改和调试提示词了! 论文地址: #skillopt# #微软# #提示词工程# #harness#

0

17

403

75

轉發到社區

超级个体｜柿子@yaohui12138

2026.05.16 05:32

就像你现在写提示词的工程一样，你现在并不需要定义细节，而是要定义好清晰的目标和方向性的原则。搜索信息也是同样的道理：AI 不是搜索不到信息，而是它不知道什么叫做好的信息，以及什么样的信息才算是高效和优质。

0

1

0

轉發到社區

TechFlow 深潮｜APP 已上线@TechFlowPost

2026.04.30 06:38

如果你这几天在用 Codex 写代码，可能撞见过一只“妖精”🤔。 GPT-5.5 在 4 月 23 日上线，搭载在最新的编程智能体 Codex 上。上线没几天，开发者陆续发现一个奇怪的现象：模型会在正常对话里突然冒出“妖精”“地精”这些词，用来代指根本不相关的东西。让它推荐相机，它会说“如果你想要那种脏脏的霓虹闪光哥布林模式”。让它压缩回答，它说“给你一个更短的哥布林版本”。写代码的时候，它说“我会盯着它，免得留一只小性能地精在那里乱跑”。 4 月 25 日，开发者 Andy Ayrey 在推特上发问：“为什么 GPT-5.5 这么痴迷于哥布林？”事情开始发酵。AI 评测平台用数据验证了这件事：GPT-5.5 输出 goblin、gremlin、troll 这些词的频率确实在涨，非高思考模式下尤其明显。几天之后，有人在 OpenAI 开源的 Codex CLI 代码里翻出了系统提示词，发现工程师写了这么一句： “永远不要谈论妖精、地精、浣熊、巨魔、食人魔、鸽子或其他任何动物或生物，除非与用户问题绝对相关。” 同一句话在文件里出现了 4 次。 OpenAI 自己也下场玩梗。ChatGPT 官方账号把这句禁令加进了 X 简介。Sam Altman 先发了张 ChatGPT 截图，配文“开始训练 GPT-6 吧，整个集群都给你，再加点妖精”。几小时后他又发推说“Codex 正在迎来它的 ChatGPT 时刻”，然后立刻自我更正：“我是说哥布林时刻，抱歉。” 今天，OpenAI 发了一篇博客《妖精从哪儿来》，把原因公开了：他们在训练一个叫“Nerdy”（书呆子）的个性化人格时，给“用生物作比喻”的回答打了过高的奖励分。这个偏好后来泄漏到了其他场景，哪怕用户没选 Nerdy 人格，模型也学会了到处用妖精打比方。GPT-5.1 上线后，“goblin”在 ChatGPT 里的使用率涨了 175%，“gremlin”涨了 52%。3 月份他们下架了 Nerdy 人格，但 GPT-5.5 已经在找到根本原因之前就开始训练了。工程师能修 bug，修不掉一只在亿级参数里安家的妖精。

Sam Altman@sama

2026.04.30 03:27

0

24

33

1

轉發到社區

半吊子程序猿大铭@CoderDaMing

2026.05.15 10:01

15个值得关注的AI账号： 1. @karpathy 他的推文创造的LLM叙事，你两个月后会在LinkedIn上看到。 2. @fchollet 发布关于智能、基准和AI局限的深思熟虑研究。Keras创始人+ARC-AGI。 3. @ylecun 深度学习先驱、Meta首席AI科学家；大局观研究和评论（还有drama）。 4. @AndrewYNg AI教育传奇；实用ML建议、课程和真实应用。 5. @rasbt 发布实用ML/LLM实现、'从零开始构建'教程和书籍。 6. @dair_ai 每周ML/AI论文线程和易懂的研究解读（高质量信息流）。 7. @lilianweng 前OpenAI员工，Lil'Log风格线程优质。深度LLM研究分解。 8. @jeremyphoward 发布有趣的AI/加密新闻观点，致力于民主化实用深度学习教育。 9. @simonw 实用LLM工具、观点、实验、提示词和工程分解。Django联合创始人。 10. @_akhaliq 精选最新arXiv论文、模型发布和开源AI项目。 11. @ID_AA_Carmack AGI/低级优化观点，让你重新思考问题。 12. @gwern 高质量长篇AI研究笔记和论文。 13. @goodside LLM评估、提示词研究和真实能力测试。 14. @drfeifei 计算机视觉先驱；以人为中心的AI和空间智能研究。 15. @demishassabis 跟踪他的工作9年了。Demis是我对抗谷歌用AI滥用权力的希望。DeepMind CEO。告诉我遗漏了谁，保存以备未来参考

0

7

2

轉發到社區

安叫兽|Bird🕊️ 🔶 BNB@ajs6888

2026.05.24 09:47

想学 AI 工程的话别一直收藏提示词了今天这个仓库可以看 ai engineering from scratch 适合那种已经会调 API 但想继续往 RAG Agent 部署真实项目走的人说白了就是从玩 AI 慢慢变成能做 AI 产品

0

21

20

0

轉發到社區

ahhhhfs@abskoop

2026.04.28 14:12

awesome-gpt-image-2 ：一个GPT-Image2 提示词案例库收录了数百个逆向工程案例和十几套模板，最大的价值在于将提示词拆解成了 UI、信息图、海报等特定场景的结构化协议。这种“Prompt as Code”的思路，有助于降低 AI 出图的不确定性，非常适合独立开发者和 AI 自动化玩家用来学习光影和信息层级的描述规律，并将其作为参考接入自己的 Agent 或脚本工作流中

0

1

13

6

轉發到社區

Bill The Investor@billtheinvestor

2026.05.25 02:31

一位工程师公开了他每天用于进行真实工程开发而非“凭感觉编程”（vibe coding）的 Claude Code 技能。真正的工程实践。该仓库的两位贡献者之一就是 Claude 本身。90.5k stars。 7.9k forks。MIT 协议。这些是互联网上最著名的 TypeScript 专家之一 Matt Pocock 在日常使用 Claude Code 时所采用的技能。它们不是通用的提示词，而是来自资深工程师的真实工作流。使用 Claude Code 进行真实工程开发的技能。在生产环境中测试过的流程。架构与技术决策文档。Claude Code 直接插件。 140 万次技能下载。5 天前更新。 MIT 许可证。区分“凭感觉编程”者与使用 AI 进行“真实工程开发”者的区别，就在于他们安装了哪些技能。 90.5k stars。7.9k forks。 MIT 许可证。仓库地址见此。

0

2

0

轉發到社區

总裁简报 CEO Briefing@CEOBriefing

2026.05.24 18:14

最新：Anthropic首席执行官Dario Amodei表示，软件工程工作有望在12个月内实现自动化。AI正引发一场范式转变，从“组建团队”转向“部署提示词”。如仍使用像Claude这样LLM，来处理基础任务，说明远未充分发挥这一强大工具潜能。对工具的误用，不仅浪费时间与金钱，更会错失良机。

0

5

43

5

轉發到社區

阑夕@foxshuo

2026.03.03 05:17

最近一张老白男审美+川之凝视+黑丝女军官的AI图片很火，很多群里转得还真有人以为是实拍的现场照片，出于学习研究的初衷，我逆向工程了提示词，感觉复刻得基本可以用了。

0

21

105

2

轉發到社區

币天天@xiaofeilong99

2026.05.26 02:18

一个人用 Claude Code 写代码，和一套 Agent 团队写代码，完全不是一个级别。 ECC 这个项目最近我觉得很值得研究。它不是简单的提示词合集，而是一套面向 Claude Code、Codex、Opencode、Cursor 的 Agent 工程化系统。 GitHub 页面显示已经 192k stars，这个热度不是没原因的。它真正有价值的地方，是把 AI 编程拆成了可复用的流程：规划有人管架构有人管测试有人管安全有人审代码有人改上下文有人记有效经验还能沉淀成 skill 这才是 AI 编程下一阶段的样子。不是你对着聊天框喊一句“帮我写个项目”。而是你有一套规则、一组 Agent、一堆 Skill，把重复工作持续沉淀下来。做工具站、做交易系统、做数据面板、做自动化脚本的人，真该研究这种框架。 🔗

0

1

0

轉發到社區