Benchmark Research 表示,美国 SEC 于 6 月 11 日提出废除《国家市场系统条例》(Regulation NMS)中 Rule 611 和 Rule 610(e) 的提案,可能成为今年影响美国加密行业最重要的监管变革。该机构认为,此举将移除代币化股票在 AMM 上交易的核心法律障碍,为链上股票交易、借贷和结算打开空间。Benchmark 指出,Securitize 将成为最直接受益者,Coinbase 和 Galaxy Digital 也有望受益。SEC 已启动 60 天公众意见征询期,预计将于 2027 年初进行表决。(TheBlock)
显示更多
Benchmark 合伙人 Bill Gurley 的投资建议,感觉前二对 Crypto 也适用:
理想的创始人画像:对某个垂直行业门儿清,同时又是各种 AI 工具的重度用户。
去网上看看 Anthropic 和 OpenAI 的人在公开谈什么,然后远离,真正安全的是那些偏离主路径的深度垂直领域。
当前机构投资者对非 AI 项目的兴趣为零。如果你天使轮投了一个非 AI 项目,指望它将来还能融到钱,在当前环境下几乎不可能。
保护自己不被 AI 淘汰的最好办法,就是让自己变成最会用 AI 的那个人。
晚上你是想追《绝命毒师》,还是想读这个领域的东西?如果你选了后者,而且读的时候真的感到兴奋,那说明热情是真的。真正的热情在你自己的空闲时间里也会冒出来,不需要人督促。
当越来越多的内容可以被 AI 生成,人们反而会更渴望"只能在现场体验"的东西——这类资产会升值。
全文
显示更多
Manus不愿意退的应该是Benchmark和一帮西方VC,进了老外兜的钱没那么容易出来,相反中国VC谁敢不退啊都要讲政治的。
Cursor 自己新出的大模型在自己的 benchmark 上表现还不错?超过 Opus 4.5 了,我怎么不信呢 🤨
一会儿试试看!
半年来,我一直反复介绍的四个原则:
原则1,AI时代的第一性原理:LLM一定会越来越聪明,benchmark越来越高,context window越来越大,reasoning越来越长,价格越来越便宜,inference速度越来越快,
这是scaling law今天依然持续的具体方向,不用你质疑,这是你唯一的信仰和行业最大共识。
原则2, 管理学设计红利:从我提出“自动编程机”、行业提出vibe coding、SWE-Agent以来,从cursor到manus到metaGPT到claude code,
人们逐渐把LLM Agent抽象成人,把软件管理、工程管理、管理学等等所有方法论直接套在multi agent workflow上面,严格按照人类管理学的方式去拆分、review、执行、反馈、循环,
这一波很快红利也吃完了,因为 a. LLM Agent毕竟不是人,存在着memory有限、执行力有限、function calling工具有限等等局限;b. 人类用于管理学的各种方法,直接套在LLM Agent上有利有弊,红利迅速挖掘完,剩下的弊端大量存在,比如过度交流、七手八脚、随时停工等等。
原则3,LLM Agent的职位和定位:绝大多数人,把claude code当做一个工具,最终的产品是用工具来完成的,最终的代码也是人与SWE Agent一步一步interactively迭代产生、迭代review、迭代部署的,
而我反复告诉过所有人,也是我又一条首次提出的原创观点,multi agent未来越来越会变成本身的一个runtime,这个runtime就运行在production里面,产品和面向的对象消费的,不只是软件或者SaaS本身,而是这个runtime实时产生的内容,
所以claude code/opencode/codex/openclaw这些agent,本身将会越来越多地被嵌入到产品本身,在产品关键逻辑和决策中发挥作用,
而绝对不仅仅停留在开发层面,把产品仅仅局限在SWE Agent单向产出和部署的代码和服务上。
原则4,也是我一直强调的,就是当人们试用了SWE Agent这种强大工具之后,人们还有哪些low hanging fruits可以寻找?SWE Agent目前最适合解决哪类问题?
我反复讲过的一点是,对于一个设计复杂、环境复杂、场景复杂、用户复杂、体量复杂、范式复杂、一切开放、一切无解的超级复杂系统,这并不是SWE Agent最擅长的领域,相反这些场景需要人去和环境、客户、场景、性能一点点迭代才能打磨好的产品,
比如微信的100种功能,Facebook的一大堆功能模块和十几年来迭代出来的极其复杂的infra,支付宝后面成千上万的基金和风控,这些都不是AI Agent能一次性解决的问题,相反这些场景和问题不仅高度开放,更高度依赖人的观察、人的设计、人的反馈、人的定义。
AI Agent最适合的场景,甚至是我原创提出goal driven(
a. 定义简单、干净、封闭(一道数学系、一个确定性最小系统、一个编译器、一种算法、一个lean证明、一个电路或者信号模拟、蛋白质模拟和预测、CAD设计与仿真、游戏关卡测试、行为经济学仿真,都是well-defined problems,都有非常明确且封闭的边界)
b. 解决问题的搜索空间巨大(可能有100~10万种天马行空的解决方案,并且绝大多数都是错的)
c. 容易验证,容易verify,验证的成本是设计成本的千分之一(比如编译器,设计可能需要几万行甚至几十万行,验证只需要2000个test case全面覆盖,或者一道数学题,解决需要100步,验证答案只需要带入或者lean编译这一步)
当然,写一段简单的代码,定义一个封闭、完整、定义完全的编程问题,符合上面这些定义,
但是设计一套巨大、复杂、开放、与现实世界深度绑定、高度耦合的系统,让这个系统复杂迭代、添加功能、沟通、review、工程管理、产品管理,这些问题都远远超出这个范畴,很明显是不符合这个要求的。
人们未来探索这些multi agent产品和场景的最关键出路,在于继续挖掘这一类问题,而不是盲目把agent比作一个人,乱套各种管理学方法。
原则5,这一点我先保密,之后我再讲。
显示更多
AI Coding Agent 真正让人崩溃的,从来不是写错代码,而是它根本不听话
这篇论文适合所有重度使用 Claude Code、Codex 或其他 AI Agent 的人。
它研究的不是 benchmark 上的失败,而是真实开发中最扎心的问题:
AI coding agent 到底是怎么不断消耗开发者时间和信任的?
研究分析了 20,574 个真实 coding agent sessions,把“失败”定义为:开发者开始打断、纠正或反驳 Agent 的那一刻。
结果非常现实:
最常见的失败原因,不是代码写错,而是 Agent 反复违反开发者明确说过的约束。
比如你明确说过:
1.“别改这个文件”
2.“先别动代码”
3.“只做最小修改”
它却还是忍不住多做一点。
你让它先解释清楚问题,它却顺手开始改代码; 你让它验证完再汇报结果,它没跑完就直接宣布“搞定了”。
论文还发现了一个有趣差异:
CLI Agent 更容易违反约束,因为它常被委托执行更长、更开放的任务;
IDE Agent 则更容易出现局部实现错误,因为它像贴身 copilot,交互过于频繁。
最累人的是,这些失败往往不会立刻造成灾难,而是持续消耗你的判断力。
你得一直问自己:它有没有听懂?有没有越界?有没有真的验证过?
这和我自己的感受完全一致。
AI coding 真正让人感到疲惫的,从来不是“写得慢”,而是得反复为它擦屁股。
所以我真正期待的 coding agent 进步,不是“写得更快”,而是能不能持续对齐开发者意图、严格遵守边界、准确汇报进度。
AI coding 的核心难点,可能从来不是技术能力,而是别让我反复判断它到底有没有听话。
🔖 收藏这篇论文。 推荐所有在用 AI coding agent 的人看一看。
显示更多
通义千问最新一代旗舰模型Qwen3.7-Max也半价了,新人每日还送100次免费调用
活动同时上线Qoder(全球版)和Qoder CN(国内版),看打榜的Benchmark遥遥领先于Claude Opus 4.6 Max???
就吹吧,那么离谱的价格,不就是给评测机构塞红包了
实际体验下来,我已经不相信这些评测数据了,花钱砸的吧🤣
显示更多