搜索 Benchmark 相关的推文

2026.06.15 15:44

Benchmark Research 表示，美国 SEC 于 6 月 11 日提出废除《国家市场系统条例》（Regulation NMS）中 Rule 611 和 Rule 610(e) 的提案，可能成为今年影响美国加密行业最重要的监管变革。该机构认为，此举将移除代币化股票在 AMM 上交易的核心法律障碍，为链上股票交易、借贷和结算打开空间。Benchmark 指出，Securitize 将成为最直接受益者，Coinbase 和 Galaxy Digital 也有望受益。SEC 已启动 60 天公众意见征询期，预计将于 2027 年初进行表决。(TheBlock)

显示更多

0

1

0

转发到社区

Colin Wu@colinwu

2026.02.19 03:16

Benchmark 合伙人 Bill Gurley 的投资建议，感觉前二对 Crypto 也适用: 理想的创始人画像：对某个垂直行业门儿清，同时又是各种 AI 工具的重度用户。去网上看看 Anthropic 和 OpenAI 的人在公开谈什么，然后远离，真正安全的是那些偏离主路径的深度垂直领域。当前机构投资者对非 AI 项目的兴趣为零。如果你天使轮投了一个非 AI 项目，指望它将来还能融到钱，在当前环境下几乎不可能。保护自己不被 AI 淘汰的最好办法，就是让自己变成最会用 AI 的那个人。晚上你是想追《绝命毒师》，还是想读这个领域的东西？如果你选了后者，而且读的时候真的感到兴奋，那说明热情是真的。真正的热情在你自己的空闲时间里也会冒出来，不需要人督促。当越来越多的内容可以被 AI 生成，人们反而会更渴望"只能在现场体验"的东西——这类资产会升值。全文

显示更多

0

13

67

7

转发到社区

Rui@YeruiZhang

2026.05.22 05:14

Manus不愿意退的应该是Benchmark和一帮西方VC，进了老外兜的钱没那么容易出来，相反中国VC谁敢不退啊都要讲政治的。

0

38

17

0

转发到社区

0xAA@0xAA_Science

2026.03.19 17:47

Cursor 自己新出的大模型在自己的 benchmark 上表现还不错？超过 Opus 4.5 了，我怎么不信呢 🤨 一会儿试试看！

0

12

6

0

转发到社区

lidang 立党（劝人卖房/学CS/买SP500/纳100/OpenAI/Anthrop第一人）@lidangzzz

2026.05.13 03:27

半年来，我一直反复介绍的四个原则：原则1，AI时代的第一性原理：LLM一定会越来越聪明，benchmark越来越高，context window越来越大，reasoning越来越长，价格越来越便宜，inference速度越来越快，这是scaling law今天依然持续的具体方向，不用你质疑，这是你唯一的信仰和行业最大共识。原则2，管理学设计红利：从我提出“自动编程机”、行业提出vibe coding、SWE-Agent以来，从cursor到manus到metaGPT到claude code，人们逐渐把LLM Agent抽象成人，把软件管理、工程管理、管理学等等所有方法论直接套在multi agent workflow上面，严格按照人类管理学的方式去拆分、review、执行、反馈、循环，这一波很快红利也吃完了，因为 a. LLM Agent毕竟不是人，存在着memory有限、执行力有限、function calling工具有限等等局限；b. 人类用于管理学的各种方法，直接套在LLM Agent上有利有弊，红利迅速挖掘完，剩下的弊端大量存在，比如过度交流、七手八脚、随时停工等等。原则3，LLM Agent的职位和定位：绝大多数人，把claude code当做一个工具，最终的产品是用工具来完成的，最终的代码也是人与SWE Agent一步一步interactively迭代产生、迭代review、迭代部署的，而我反复告诉过所有人，也是我又一条首次提出的原创观点，multi agent未来越来越会变成本身的一个runtime，这个runtime就运行在production里面，产品和面向的对象消费的，不只是软件或者SaaS本身，而是这个runtime实时产生的内容，所以claude code/opencode/codex/openclaw这些agent，本身将会越来越多地被嵌入到产品本身，在产品关键逻辑和决策中发挥作用，而绝对不仅仅停留在开发层面，把产品仅仅局限在SWE Agent单向产出和部署的代码和服务上。原则4，也是我一直强调的，就是当人们试用了SWE Agent这种强大工具之后，人们还有哪些low hanging fruits可以寻找？SWE Agent目前最适合解决哪类问题？我反复讲过的一点是，对于一个设计复杂、环境复杂、场景复杂、用户复杂、体量复杂、范式复杂、一切开放、一切无解的超级复杂系统，这并不是SWE Agent最擅长的领域，相反这些场景需要人去和环境、客户、场景、性能一点点迭代才能打磨好的产品，比如微信的100种功能，Facebook的一大堆功能模块和十几年来迭代出来的极其复杂的infra，支付宝后面成千上万的基金和风控，这些都不是AI Agent能一次性解决的问题，相反这些场景和问题不仅高度开放，更高度依赖人的观察、人的设计、人的反馈、人的定义。 AI Agent最适合的场景，甚至是我原创提出goal driven（ a. 定义简单、干净、封闭（一道数学系、一个确定性最小系统、一个编译器、一种算法、一个lean证明、一个电路或者信号模拟、蛋白质模拟和预测、CAD设计与仿真、游戏关卡测试、行为经济学仿真，都是well-defined problems，都有非常明确且封闭的边界） b. 解决问题的搜索空间巨大（可能有100~10万种天马行空的解决方案，并且绝大多数都是错的） c. 容易验证，容易verify，验证的成本是设计成本的千分之一（比如编译器，设计可能需要几万行甚至几十万行，验证只需要2000个test case全面覆盖，或者一道数学题，解决需要100步，验证答案只需要带入或者lean编译这一步）当然，写一段简单的代码，定义一个封闭、完整、定义完全的编程问题，符合上面这些定义，但是设计一套巨大、复杂、开放、与现实世界深度绑定、高度耦合的系统，让这个系统复杂迭代、添加功能、沟通、review、工程管理、产品管理，这些问题都远远超出这个范畴，很明显是不符合这个要求的。人们未来探索这些multi agent产品和场景的最关键出路，在于继续挖掘这一类问题，而不是盲目把agent比作一个人，乱套各种管理学方法。原则5，这一点我先保密，之后我再讲。

显示更多

0

20

287

62

转发到社区

Wayen@wayen_ai

2026.06.13 04:20

AI Coding Agent 真正让人崩溃的，从来不是写错代码，而是它根本不听话这篇论文适合所有重度使用 Claude Code、Codex 或其他 AI Agent 的人。它研究的不是 benchmark 上的失败，而是真实开发中最扎心的问题： AI coding agent 到底是怎么不断消耗开发者时间和信任的？研究分析了 20,574 个真实 coding agent sessions，把“失败”定义为：开发者开始打断、纠正或反驳 Agent 的那一刻。结果非常现实：最常见的失败原因，不是代码写错，而是 Agent 反复违反开发者明确说过的约束。比如你明确说过： 1.“别改这个文件” 2.“先别动代码” 3.“只做最小修改” 它却还是忍不住多做一点。你让它先解释清楚问题，它却顺手开始改代码；你让它验证完再汇报结果，它没跑完就直接宣布“搞定了”。论文还发现了一个有趣差异： CLI Agent 更容易违反约束，因为它常被委托执行更长、更开放的任务； IDE Agent 则更容易出现局部实现错误，因为它像贴身 copilot，交互过于频繁。最累人的是，这些失败往往不会立刻造成灾难，而是持续消耗你的判断力。你得一直问自己：它有没有听懂？有没有越界？有没有真的验证过？这和我自己的感受完全一致。 AI coding 真正让人感到疲惫的，从来不是“写得慢”，而是得反复为它擦屁股。所以我真正期待的 coding agent 进步，不是“写得更快”，而是能不能持续对齐开发者意图、严格遵守边界、准确汇报进度。 AI coding 的核心难点，可能从来不是技术能力，而是别让我反复判断它到底有没有听话。 🔖 收藏这篇论文。推荐所有在用 AI coding agent 的人看一看。

显示更多

0

转发到社区

奶昔🥤@realNyarime

2026.05.27 02:52

通义千问最新一代旗舰模型Qwen3.7-Max也半价了，新人每日还送100次免费调用活动同时上线Qoder（全球版）和Qoder CN（国内版），看打榜的Benchmark遥遥领先于Claude Opus 4.6 Max？？？就吹吧，那么离谱的价格，不就是给评测机构塞红包了实际体验下来，我已经不相信这些评测数据了，花钱砸的吧🤣

显示更多

0

22

46

1

转发到社区