註冊並分享邀請連結,可獲得影片播放與邀請獎勵。

檢索結果 Benchmark
Benchmark 貼吧
一個關鍵字就是一個貼吧,路徑全站唯一。
建立貼吧
用戶
未找到
包含 Benchmark 的搜尋結果
Benchmark Research 表示,美国 SEC 于 6 月 11 日提出废除《国家市场系统条例》(Regulation NMS)中 Rule 611 和 Rule 610(e) 的提案,可能成为今年影响美国加密行业最重要的监管变革。该机构认为,此举将移除代币化股票在 AMM 上交易的核心法律障碍,为链上股票交易、借贷和结算打开空间。Benchmark 指出,Securitize 将成为最直接受益者,Coinbase 和 Galaxy Digital 也有望受益。SEC 已启动 60 天公众意见征询期,预计将于 2027 年初进行表决。(TheBlock)
顯示更多
Benchmark 合伙人 Bill Gurley 的投资建议,感觉前二对 Crypto 也适用: 理想的创始人画像:对某个垂直行业门儿清,同时又是各种 AI 工具的重度用户。 去网上看看 Anthropic 和 OpenAI 的人在公开谈什么,然后远离,真正安全的是那些偏离主路径的深度垂直领域。 当前机构投资者对非 AI 项目的兴趣为零。如果你天使轮投了一个非 AI 项目,指望它将来还能融到钱,在当前环境下几乎不可能。 保护自己不被 AI 淘汰的最好办法,就是让自己变成最会用 AI 的那个人。 晚上你是想追《绝命毒师》,还是想读这个领域的东西?如果你选了后者,而且读的时候真的感到兴奋,那说明热情是真的。真正的热情在你自己的空闲时间里也会冒出来,不需要人督促。 当越来越多的内容可以被 AI 生成,人们反而会更渴望"只能在现场体验"的东西——这类资产会升值。 全文
顯示更多
0
13
67
7
轉發到社區
Manus不愿意退的应该是Benchmark和一帮西方VC,进了老外兜的钱没那么容易出来,相反中国VC谁敢不退啊都要讲政治的。
0
38
17
0
轉發到社區
Cursor 自己新出的大模型在自己的 benchmark 上表现还不错?超过 Opus 4.5 了,我怎么不信呢 🤨 一会儿试试看!
半年来,我一直反复介绍的四个原则: 原则1,AI时代的第一性原理:LLM一定会越来越聪明,benchmark越来越高,context window越来越大,reasoning越来越长,价格越来越便宜,inference速度越来越快, 这是scaling law今天依然持续的具体方向,不用你质疑,这是你唯一的信仰和行业最大共识。 原则2, 管理学设计红利:从我提出“自动编程机”、行业提出vibe coding、SWE-Agent以来,从cursor到manus到metaGPT到claude code, 人们逐渐把LLM Agent抽象成人,把软件管理、工程管理、管理学等等所有方法论直接套在multi agent workflow上面,严格按照人类管理学的方式去拆分、review、执行、反馈、循环, 这一波很快红利也吃完了,因为 a. LLM Agent毕竟不是人,存在着memory有限、执行力有限、function calling工具有限等等局限;b. 人类用于管理学的各种方法,直接套在LLM Agent上有利有弊,红利迅速挖掘完,剩下的弊端大量存在,比如过度交流、七手八脚、随时停工等等。 原则3,LLM Agent的职位和定位:绝大多数人,把claude code当做一个工具,最终的产品是用工具来完成的,最终的代码也是人与SWE Agent一步一步interactively迭代产生、迭代review、迭代部署的, 而我反复告诉过所有人,也是我又一条首次提出的原创观点,multi agent未来越来越会变成本身的一个runtime,这个runtime就运行在production里面,产品和面向的对象消费的,不只是软件或者SaaS本身,而是这个runtime实时产生的内容, 所以claude code/opencode/codex/openclaw这些agent,本身将会越来越多地被嵌入到产品本身,在产品关键逻辑和决策中发挥作用, 而绝对不仅仅停留在开发层面,把产品仅仅局限在SWE Agent单向产出和部署的代码和服务上。 原则4,也是我一直强调的,就是当人们试用了SWE Agent这种强大工具之后,人们还有哪些low hanging fruits可以寻找?SWE Agent目前最适合解决哪类问题? 我反复讲过的一点是,对于一个设计复杂、环境复杂、场景复杂、用户复杂、体量复杂、范式复杂、一切开放、一切无解的超级复杂系统,这并不是SWE Agent最擅长的领域,相反这些场景需要人去和环境、客户、场景、性能一点点迭代才能打磨好的产品, 比如微信的100种功能,Facebook的一大堆功能模块和十几年来迭代出来的极其复杂的infra,支付宝后面成千上万的基金和风控,这些都不是AI Agent能一次性解决的问题,相反这些场景和问题不仅高度开放,更高度依赖人的观察、人的设计、人的反馈、人的定义。 AI Agent最适合的场景,甚至是我原创提出goal driven( a. 定义简单、干净、封闭(一道数学系、一个确定性最小系统、一个编译器、一种算法、一个lean证明、一个电路或者信号模拟、蛋白质模拟和预测、CAD设计与仿真、游戏关卡测试、行为经济学仿真,都是well-defined problems,都有非常明确且封闭的边界) b. 解决问题的搜索空间巨大(可能有100~10万种天马行空的解决方案,并且绝大多数都是错的) c. 容易验证,容易verify,验证的成本是设计成本的千分之一(比如编译器,设计可能需要几万行甚至几十万行,验证只需要2000个test case全面覆盖,或者一道数学题,解决需要100步,验证答案只需要带入或者lean编译这一步) 当然,写一段简单的代码,定义一个封闭、完整、定义完全的编程问题,符合上面这些定义, 但是设计一套巨大、复杂、开放、与现实世界深度绑定、高度耦合的系统,让这个系统复杂迭代、添加功能、沟通、review、工程管理、产品管理,这些问题都远远超出这个范畴,很明显是不符合这个要求的。 人们未来探索这些multi agent产品和场景的最关键出路,在于继续挖掘这一类问题,而不是盲目把agent比作一个人,乱套各种管理学方法。 原则5,这一点我先保密,之后我再讲。
顯示更多
0
20
287
62
轉發到社區
AI Coding Agent 真正让人崩溃的,从来不是写错代码,而是它根本不听话 这篇论文适合所有重度使用 Claude Code、Codex 或其他 AI Agent 的人。 它研究的不是 benchmark 上的失败,而是真实开发中最扎心的问题: AI coding agent 到底是怎么不断消耗开发者时间和信任的? 研究分析了 20,574 个真实 coding agent sessions,把“失败”定义为:开发者开始打断、纠正或反驳 Agent 的那一刻。 结果非常现实: 最常见的失败原因,不是代码写错,而是 Agent 反复违反开发者明确说过的约束。 比如你明确说过: 1.“别改这个文件” 2.“先别动代码” 3.“只做最小修改” 它却还是忍不住多做一点。 你让它先解释清楚问题,它却顺手开始改代码; 你让它验证完再汇报结果,它没跑完就直接宣布“搞定了”。 论文还发现了一个有趣差异: CLI Agent 更容易违反约束,因为它常被委托执行更长、更开放的任务; IDE Agent 则更容易出现局部实现错误,因为它像贴身 copilot,交互过于频繁。 最累人的是,这些失败往往不会立刻造成灾难,而是持续消耗你的判断力。 你得一直问自己:它有没有听懂?有没有越界?有没有真的验证过? 这和我自己的感受完全一致。 AI coding 真正让人感到疲惫的,从来不是“写得慢”,而是得反复为它擦屁股。 所以我真正期待的 coding agent 进步,不是“写得更快”,而是能不能持续对齐开发者意图、严格遵守边界、准确汇报进度。 AI coding 的核心难点,可能从来不是技术能力,而是别让我反复判断它到底有没有听话。 🔖 收藏这篇论文。 推荐所有在用 AI coding agent 的人看一看。
顯示更多
通义千问最新一代旗舰模型Qwen3.7-Max也半价了,新人每日还送100次免费调用 活动同时上线Qoder(全球版)和Qoder CN(国内版),看打榜的Benchmark遥遥领先于Claude Opus 4.6 Max??? 就吹吧,那么离谱的价格,不就是给评测机构塞红包了 实际体验下来,我已经不相信这些评测数据了,花钱砸的吧🤣
顯示更多
0
22
46
1
轉發到社區