搜尋 BENCH 相關推文 — 推特瀏覽器

2026.02.19 03:16

Benchmark 合伙人 Bill Gurley 的投资建议，感觉前二对 Crypto 也适用: 理想的创始人画像：对某个垂直行业门儿清，同时又是各种 AI 工具的重度用户。去网上看看 Anthropic 和 OpenAI 的人在公开谈什么，然后远离，真正安全的是那些偏离主路径的深度垂直领域。当前机构投资者对非 AI 项目的兴趣为零。如果你天使轮投了一个非 AI 项目，指望它将来还能融到钱，在当前环境下几乎不可能。保护自己不被 AI 淘汰的最好办法，就是让自己变成最会用 AI 的那个人。晚上你是想追《绝命毒师》，还是想读这个领域的东西？如果你选了后者，而且读的时候真的感到兴奋，那说明热情是真的。真正的热情在你自己的空闲时间里也会冒出来，不需要人督促。当越来越多的内容可以被 AI 生成，人们反而会更渴望"只能在现场体验"的东西——这类资产会升值。全文

0

13

67

7

轉發到社區

jolestar@jolestar

2026.05.05 04:00

上一次做 benchmark 遇到 Agent 读取文件的问题，然后做了分析和优化。按照当前 Codex/Claude 的实现，单文件最好保持在 500 行以内，这样可以保证 Claude/Codex 有需要的时候可以一次性加载进来。 Agent 读取文件的时候，读取的太长了就会触发压缩，它会做截取。如果正好是被截取部分有用，就会触发 LLM 再次读取。 Codex 没有专门的读取工具，用的是 shell 命令来读取。 Claude code 给了读取工具，读取文件的工具比 Shell 给的额度更宽松一些，但也有上限，但 Agent 经常会自己决定用 shell。如果单行按照 50 chars 计算，Codex 大约 700 行左右，Claude shell 大约 600 行，Claude FileRead 大约 2000 行。所以当前保守一些让文件保持 500 行内是最佳的。

jolestar@jolestar

2026.04.27 14:54

AI Coding 时代，好的编程习惯仍然重要最近做一个 Agent benchmark，发现不能简单地用开发者视角来评估一个编程任务对 AI 的复杂度。比如一个重构任务：把一个几千行的大文件，按功能拆成十多个小模块。这个任务对开发者来说其实不算难，主要工作就是移动代码、整理 imports、编译验证，新手也能搞定。所以想着用一个简单的任务来做一下 benchmark，结果却出乎意料。 Claude Code 判断这个任务比较大，尝试拆了一部分，提了个 PR 写了 Future work 打算分步来。我自己的 Agent 是“硬上”，往完整拆分的方向推进了更多，但代价也很明显：Token 消耗是 Claude 的几十倍，后面大量时间都花在反复读文件、修编译错误、再读文件、再修错误上。这让我意识到，人觉得简单的任务，对 Agent 不一定简单。对人来说，这类重构很多时候就是“把这一段挪过去”。但对 Agent 来说，它要先分批读大文件，记住哪些函数和哪些测试有关，再生成一堆跨文件修改，最后通过编译错误一点点补洞。看起来像机械活，实际变成了一个高 Token、高状态管理成本的任务。前一段时间看到有人说，AI Coding 时代，拆分模块这些编程原则没那么重要了，反正人也不看代码。现在看，我不太同意。模块边界清楚、文件粒度合适、依赖关系简单，不只是方便人读，也是在帮 Agent 降低任务复杂度。从另一个角度看，现在 Agent 的读文件和改文件工具，对这种重构也不太顺手。 Coding Agent 改文件，主要还是文本替换。比如 Claude Code 常见的是 old_string / new_string 模式：先给出一段旧文本，再替换成新文本。Codex 常用的是 apply_patch：生成一个类似 git diff 的 patch，表达把旧的内容替换成新的。它们都适合小范围修改，但如果要删除一大段旧代码，或者把一批函数挪到别的文件，模型往往还是要先把原始内容读进上下文，再生成一大段替换或 diff。所以我后来给 Agent 一个提示，让它先用脚本、sed、perl 这类工具把大文件粗拆开，直接把旧内容删掉，写到新文件中，然后再逐个慢慢修，它的完成度确实高了许多。Agent 默认不会这样做，主要是因为系统提示词里会强烈要求 Agent 用内置工具修改文件，而不是命令行工具。再往前想一步，Coding Agent 可能还需要更高级的编辑工具。不是只给它一个“替换文本”的接口，而是先通过 parser、LSP 或 compiler 建立代码结构，让 Agent 可以像 IDE 一样做重构：移动函数，删除 impl block，整理 imports。不知道是否有朋友做这方面的尝试。总的来说，即便是 AI Coding 时代，好的编程习惯还是有价值的。尽量在早期通过 harness engineering，把好的编程习惯变成 Agent 的默认工作方式，比后来再重构的成本要小很多。

0

2

15

0

轉發到社區

Rui@YeruiZhang

2026.05.22 05:14

Manus不愿意退的应该是Benchmark和一帮西方VC，进了老外兜的钱没那么容易出来，相反中国VC谁敢不退啊都要讲政治的。

0

38

18

0

轉發到社區

AI Will@FinanceYF5

2026.05.08 02:54

在这张 RL 环境公司市场地图中，Benchflow AI 是唯一一家： > 仅获得天使轮融资 > 没有 YC 或 a16z accelerator 背景 > 创始团队没有 PhD、实验室经历或传统学术光环并且还是 solo founder 模式。却发出了两篇顶级研究，还收到独角兽的八位数收购报价！

0

2

9

2

轉發到社區

0xAA@0xAA_Science

2026.03.19 17:47

Cursor 自己新出的大模型在自己的 benchmark 上表现还不错？超过 Opus 4.5 了，我怎么不信呢 🤨 一会儿试试看！

0

12

6

0

轉發到社區

jolestar@jolestar

2026.04.27 14:54

AI Coding 时代，好的编程习惯仍然重要最近做一个 Agent benchmark，发现不能简单地用开发者视角来评估一个编程任务对 AI 的复杂度。比如一个重构任务：把一个几千行的大文件，按功能拆成十多个小模块。这个任务对开发者来说其实不算难，主要工作就是移动代码、整理 imports、编译验证，新手也能搞定。所以想着用一个简单的任务来做一下 benchmark，结果却出乎意料。 Claude Code 判断这个任务比较大，尝试拆了一部分，提了个 PR 写了 Future work 打算分步来。我自己的 Agent 是“硬上”，往完整拆分的方向推进了更多，但代价也很明显：Token 消耗是 Claude 的几十倍，后面大量时间都花在反复读文件、修编译错误、再读文件、再修错误上。这让我意识到，人觉得简单的任务，对 Agent 不一定简单。对人来说，这类重构很多时候就是“把这一段挪过去”。但对 Agent 来说，它要先分批读大文件，记住哪些函数和哪些测试有关，再生成一堆跨文件修改，最后通过编译错误一点点补洞。看起来像机械活，实际变成了一个高 Token、高状态管理成本的任务。前一段时间看到有人说，AI Coding 时代，拆分模块这些编程原则没那么重要了，反正人也不看代码。现在看，我不太同意。模块边界清楚、文件粒度合适、依赖关系简单，不只是方便人读，也是在帮 Agent 降低任务复杂度。从另一个角度看，现在 Agent 的读文件和改文件工具，对这种重构也不太顺手。 Coding Agent 改文件，主要还是文本替换。比如 Claude Code 常见的是 old_string / new_string 模式：先给出一段旧文本，再替换成新文本。Codex 常用的是 apply_patch：生成一个类似 git diff 的 patch，表达把旧的内容替换成新的。它们都适合小范围修改，但如果要删除一大段旧代码，或者把一批函数挪到别的文件，模型往往还是要先把原始内容读进上下文，再生成一大段替换或 diff。所以我后来给 Agent 一个提示，让它先用脚本、sed、perl 这类工具把大文件粗拆开，直接把旧内容删掉，写到新文件中，然后再逐个慢慢修，它的完成度确实高了许多。Agent 默认不会这样做，主要是因为系统提示词里会强烈要求 Agent 用内置工具修改文件，而不是命令行工具。再往前想一步，Coding Agent 可能还需要更高级的编辑工具。不是只给它一个“替换文本”的接口，而是先通过 parser、LSP 或 compiler 建立代码结构，让 Agent 可以像 IDE 一样做重构：移动函数，删除 impl block，整理 imports。不知道是否有朋友做这方面的尝试。总的来说，即便是 AI Coding 时代，好的编程习惯还是有价值的。尽量在早期通过 harness engineering，把好的编程习惯变成 Agent 的默认工作方式，比后来再重构的成本要小很多。

0

13

49

9

轉發到社區

lidang 立党（劝人卖房/学CS/买SP500/纳100/OpenAI/Anthrop第一人）@lidangzzz

2026.05.13 03:27

半年来，我一直反复介绍的四个原则：原则1，AI时代的第一性原理：LLM一定会越来越聪明，benchmark越来越高，context window越来越大，reasoning越来越长，价格越来越便宜，inference速度越来越快，这是scaling law今天依然持续的具体方向，不用你质疑，这是你唯一的信仰和行业最大共识。原则2，管理学设计红利：从我提出“自动编程机”、行业提出vibe coding、SWE-Agent以来，从cursor到manus到metaGPT到claude code，人们逐渐把LLM Agent抽象成人，把软件管理、工程管理、管理学等等所有方法论直接套在multi agent workflow上面，严格按照人类管理学的方式去拆分、review、执行、反馈、循环，这一波很快红利也吃完了，因为 a. LLM Agent毕竟不是人，存在着memory有限、执行力有限、function calling工具有限等等局限；b. 人类用于管理学的各种方法，直接套在LLM Agent上有利有弊，红利迅速挖掘完，剩下的弊端大量存在，比如过度交流、七手八脚、随时停工等等。原则3，LLM Agent的职位和定位：绝大多数人，把claude code当做一个工具，最终的产品是用工具来完成的，最终的代码也是人与SWE Agent一步一步interactively迭代产生、迭代review、迭代部署的，而我反复告诉过所有人，也是我又一条首次提出的原创观点，multi agent未来越来越会变成本身的一个runtime，这个runtime就运行在production里面，产品和面向的对象消费的，不只是软件或者SaaS本身，而是这个runtime实时产生的内容，所以claude code/opencode/codex/openclaw这些agent，本身将会越来越多地被嵌入到产品本身，在产品关键逻辑和决策中发挥作用，而绝对不仅仅停留在开发层面，把产品仅仅局限在SWE Agent单向产出和部署的代码和服务上。原则4，也是我一直强调的，就是当人们试用了SWE Agent这种强大工具之后，人们还有哪些low hanging fruits可以寻找？SWE Agent目前最适合解决哪类问题？我反复讲过的一点是，对于一个设计复杂、环境复杂、场景复杂、用户复杂、体量复杂、范式复杂、一切开放、一切无解的超级复杂系统，这并不是SWE Agent最擅长的领域，相反这些场景需要人去和环境、客户、场景、性能一点点迭代才能打磨好的产品，比如微信的100种功能，Facebook的一大堆功能模块和十几年来迭代出来的极其复杂的infra，支付宝后面成千上万的基金和风控，这些都不是AI Agent能一次性解决的问题，相反这些场景和问题不仅高度开放，更高度依赖人的观察、人的设计、人的反馈、人的定义。 AI Agent最适合的场景，甚至是我原创提出goal driven（ a. 定义简单、干净、封闭（一道数学系、一个确定性最小系统、一个编译器、一种算法、一个lean证明、一个电路或者信号模拟、蛋白质模拟和预测、CAD设计与仿真、游戏关卡测试、行为经济学仿真，都是well-defined problems，都有非常明确且封闭的边界） b. 解决问题的搜索空间巨大（可能有100~10万种天马行空的解决方案，并且绝大多数都是错的） c. 容易验证，容易verify，验证的成本是设计成本的千分之一（比如编译器，设计可能需要几万行甚至几十万行，验证只需要2000个test case全面覆盖，或者一道数学题，解决需要100步，验证答案只需要带入或者lean编译这一步）当然，写一段简单的代码，定义一个封闭、完整、定义完全的编程问题，符合上面这些定义，但是设计一套巨大、复杂、开放、与现实世界深度绑定、高度耦合的系统，让这个系统复杂迭代、添加功能、沟通、review、工程管理、产品管理，这些问题都远远超出这个范畴，很明显是不符合这个要求的。人们未来探索这些multi agent产品和场景的最关键出路，在于继续挖掘这一类问题，而不是盲目把agent比作一个人，乱套各种管理学方法。原则5，这一点我先保密，之后我再讲。

0

20

287

62

轉發到社區

0xTodd ( thinking )@0xTodd

2026.02.20 01:52

谷歌最新发布的 Gemini 3.1 Pro 模型，最让我激动的还是它在这三个基准测试（Benchmark）的考试分数： ARC-AGI-2：推理智力 2.5倍提升 31%→77% ，这个考试没啥说的，目前最硬核的智商测试，纯靠逻辑，没法背题。 BrowseComp：深度搜索能力 1.5 倍提升 59%→86%，需要搜索的东西都在难以搜到的角落，不是简单 Google，同时考察搜不到之后自我纠正的能力。 APEX-Agents：长任务/职业任务 2 倍提升 18%→36%，主要考察长周期专业任务，尤其是职业任务，例如投行分析师、律师、咨询顾问，得会看报表、读文档。我的哈基米越来越聪明了🥰。

Google DeepMind@GoogleDeepMind

2026.02.19 16:08

Gemini 3.1 Pro is here. We’ve significantly improved the model’s overall intelligence so it can solve tougher problems. 🧵

0

5

15

1

轉發到社區

Y11@seclink

2026.05.22 01:43

2. Google I/O 2026：Gemini 变成 Agent 平台 - 优先级: 9 | 影响力: 6 | 信息差: 3 - 来源: Forbes (25小时前) - 核心: - 发布 Gemini 3.5 Flash，首个3.5系列模型 - Terminal-Bench 2.1得分 76.2%，MCP Atlas得分 83.6% - 比Gemini 3.1 Pro快4倍 - 将Gemini定位为Agent引擎，集成到所有Google产品 - 影响: Google正式将Agent作为核心战略，对标OpenAI和Anthropic - 中国讨论度: Google I/O有部分报道，但Agent平台定位的深层含义讨论不足

0

1

0

轉發到社區

AB Kuai.Dong@_FORAB

2026.04.28 03:47

果然，Meta 火速答应了撤销收购。 WSJ 援引消息人士，在昨天中国发改委，要求 Meta 公司撤销 20 亿美金收购 Manus 交易案后，Meta 公司正积极响应号召，取消对中国人工智能初创公司 Manus 的收购。但棘手的点在于，包括 Benchmark 在内的 Manus 资方，已完成了退出回报。扎克伯格，估计开心坏了。

0

232

770

62

轉發到社區