注册并分享邀请链接,可获得视频播放与邀请奖励。

搜索结果 HarnessEngineering
HarnessEngineering 贴吧
一个关键词就是一个贴吧,路径全站唯一。
创建贴吧
用户
未找到
包含 HarnessEngineering 的推特
DeepSeek 招 Agent Harness 研究员,能是世界范围内第一次招聘“Harness研究员” ● 招聘岗位:Agent Harness 研究员(实习/全职) ● 工作性质:全职 | 实习 ● 工作地点:浙江·杭州市 / 北京市 ================================ 【团队使命】 Model + Harness = Agent 我们正在把 DeepSeek 的前沿模型能力,转化为领先的 Agent 产品。这其中除模型本身以外的所有工作,都属于 Harness 的范畴。 你将加入 Harness 团队,与研究员、工程师、产品经理紧密协作,探索 Harness 领域的研究前沿,定义 DeepSeek 对 Harness 的理解。 ================================ 【主要职责】 - 前沿创新:与 Harness 团队的研究员与工程师深度沟通、紧密合作,共同定义和实现 Harness 领域基于模型能力的前沿创新,包括但不限于上下文管理、长期记忆、Subagent 与 Multi-Agent、自进化 Agent 等领域。 - 深度适配:与模型训练团队的研究员与工程师深度沟通与合作,实现模型与 Harness 的共同进化,从 Harness 的角度实现 DeepSeek 的 Harness 与模型的深度适配。 - 评测构建:提出 Harness 领域的基准测试与评测方法,构建评测基准数据和制定数据标注策略,从 Harness 的角度研究并优化 Agent 在各领域的智能水平。 - 真实迭代:以真实世界的任务作为 Harness 研究的重要反馈源,设计相关数据与实验,持续迭代 Agent 能力在真实使用场景下的表现。 - 用户优化:基于团队收集到的用户反馈,从 Harness 的角度研究并优化为最广大用户解决真实场景问题的能力。 ================================ 【任职要求】 - 科研背景:硕士学历及以上,2年以上计算机科学或相关领域的科研经验,水平过硬,眼界广阔,有科研品味;在计算机科学领域具有含金量的论文发表(特别优秀候选人可放宽学历及年限要求)。 - 独立推进:面对问题能够独立分析并提出自己的 idea,具备从 0 到 1 推动研究的能力;能够快速将想法转化为可运行的原型,具备高效的实验迭代能力。 - 全栈开发:熟练使用 AI Agent 工具进行软件开发,在软件开发领域具有极强的学习能力;能够在 AI 辅助下,在没有直接经验的领域(如语言、技术、框架等)进行研究目的的编程工作。 - 重度用户:是 Agent 产品的高强度用户,对 Agent Harness 的开发和研究有极大的热情,对模型行为有品味有判断力;深度使用过代码类及通用类 Agent 产品,并将相关产品的使用融入到自己的工作和生活中。 - 知识储备:熟悉 LLM 以及 Agent 基本机制及其技术原理(包括 LLM API、KV Cache、Agent Loop、Tool Use、Reasoning、Planning、Skills、MCP、Memory、Subagent、Multi-Agent 等);对 Prompt Engineering、Context Engineering、Harness Engineering 等课题有深入的理解。 - 沟通能力:具备良好的中文沟通能力。 ================================ 【加分项】 - AI 领域相关科研经验,或 AI 行业的研究员任职经验。 - 拥有个人开源作品,或对开源社区有深度贡献。 - 在计算机科学领域、编程领域、或数据科学领域获得过具有含金量的比赛奖项。 - 其它超乎常人的与此工作相关的才能。
显示更多
0
25
207
37
转发到社区
Stripe 今天新发布了一个功能 Treasury,我觉得这会是集成在 harness engineering 中的一个重要产品,让 wanman 这类工具不仅可以做出初创公司的方案,还能直接开设银行账户,并授权 agent 使用这些账户进行付款。有意思的是,它还默认支持 crypto
显示更多
0
6
187
13
转发到社区
这个思路做下来效果怎样还是有待评估的,不管是什么 harness engineering,离开前沿模型的 cli(不是前沿模型本身)效果都会打折。harness engineering 和 codex/cc 的界限正在变得模糊,我认为如何基于后者极速演化的基础上做 harness 才能可持续地发展。
显示更多
Vercel 开源了 Open Agents,一个用来搭建企业自有编程 Agent 平台的参考实现。 CEO Guillermo Rauch 说:现成的编程 Agent 在大型代码仓库上表现不行,也不了解你公司的知识体系和内部流程,所以 Stripe、Spotify、Block 这些公司都在造自己的 AI 软件工厂。 Open Agents 绑定了 Vercel 自家的 Fluid、Workflow、Sandbox 和 AI Gateway 这套底座。但不管怎么说,Open Agents 给了一个可以直接 fork 的起点。 架构分三层:前端负责会话和认证,Agent 作为持久化工作流运行在 Vercel 上,沙箱提供隔离的代码执行环境。一个关键设计是 Agent 不跑在沙箱里面,而是从外部通过工具调用(文件读写、Shell 命令、搜索等)操作沙箱。这样 Agent 的生命周期、沙箱的生命周期、模型的选择,三件事互不绑定,各自演进。 功能上已经比较完整:支持对话驱动的编程 Agent、沙箱快照恢复、仓库克隆和分支操作、自动提交和发 PR、会话分享,甚至还有语音输入。 对于正在考虑自建编程 Agent 的技术团队,这省了从零搭架子的功夫。对于没有这个需求的开发者,这个项目的架构设计本身也值得看看,尤其是 Agent 和执行环境分离这个思路,几乎是当前所有 Agent 框架都在趋同的方向。 对比下 Anthropic 的 Managed Agents。 Vercel 的 Open Agents 是开源参考实现,给你一套可以 fork 的代码,自己部署、自己改。Anthropic 的 Managed Agents 是全托管服务,你通过 API 定义 Agent 的行为,基础设施全部由 Anthropic 运行,连沙箱、状态管理、错误恢复都不用操心。 有意思的是,两者在架构核心上达成了同一个共识:Agent 和执行环境必须分离。Vercel 的文档里专门强调"the agent is not the sandbox",Agent 从外部通过工具调用操作沙箱。Anthropic 的工程博客用了一个更形象的说法,把 Agent 拆成"大脑"和"手",大脑(模型和调度循环)不住在容器里,通过接口远程操控沙箱。 Anthropic 的工程博客还解释了为什么要这么做:早期他们把所有东西塞进一个容器,结果容器变成了"宠物"(Pet),挂了就什么都丢了,调试还得钻进去看,而容器里又有用户数据,安全上也过不去。拆开之后,容器变成了"牲口"(Cattle),坏了就换一个,会话日志(Session)独立存储在外面,随时可以恢复。 除了架构哲学,两者的差异很明显: 模型锁定方面,Open Agents 不绑定模型,你可以接任何 LLM。Managed Agents 只能用 Claude 系列模型,但换来的是 Anthropic 在 harness 层面做的 prompt caching、上下文压缩、自动恢复这些优化,这些东西自己搭很难做好。 成本结构方面,Open Agents 的成本是你自己的基础设施费用加上模型 API 调用费。Managed Agents 是三层计费:模型 token 费 + 每小时 0.08 美元的运行时费(按毫秒计,空闲不收费)+ 网页搜索每千次 10 美元。 控制权方面,Open Agents 给你完整源码,怎么改都行,但搭建和维护是你的事。Managed Agents 上手快(有人说 30 分钟就能跑起来),但你被限制在 Anthropic 提供的 API 能力范围内。
显示更多