注册并分享邀请链接,可获得视频播放与邀请奖励。

AI Dance
@AI_Whisper_X
China AI insider | Silicon Valley Decoded 一边盯硅谷,一边扒中国AI 算法 + VC 双视角 · 讲人话 📬 aidance.info@gmail.com
259 正在关注    5.1K 粉丝
H200 这事最魔幻的地方在于,美中两边都搞不清自己到底想要啥。 美国这边:一派觉得"绝不能卖,卖了就是养虎";另一派觉得"必须卖,让中国 AI 继续依赖英伟达,华为才起不来"。两派吵到最后,USTR 出来说一句"进不进口是中国的主权决定",翻译过来就是:我们问了,中国不要,那算了。 中国这边更乱:商务部和发改委希望 DeepSeek、阿里能买到卡好好卷;网信办和安全口怕芯片里塞后门、塞定位;本人估计还想让 AI 公司"吃点苦",逼着用国产卡,把华为昇腾的市场养起来。(近是转发概括) 结果就是一个荒诞的局面:中国阴差阳错拿到了最优解。明面上市场保护住了,国产芯片有了喘息空间;暗地里 AI 公司该租租、该走私走私,前沿模型一个没少训。两头通吃。 英伟达 CEO 飞过来谈了半天,回头一看:京东上 RTX PRO 6000 96G 9.2 万人民币明码标价挂着卖,挂完两小时下架,这就是今天中国 AI 算力市场的真实状态。
显示更多
What the hell is going on with H200 chip sales to China? A bizarre confluence of internal fights within the U.S. and Chinese governments has led to an extremely confusing situation—whereby China may graciously “agree” to import the Nvidia chips its AI labs desperately need, while also framing this as some sort of “concession” the United States should be thankful for. Here’s what’s actually going on: Chinese AI labs desperately need American compute, which is why they’ve been renting or outright smuggling huge numbers of Nvidia-designed chips from third countries. A lack of computational power continues to materially constrain Chinese AI labs’ ability to train frontier models and serve them to global publics. But not every part of the Chinese Communist Party cares equally about the plight of the country’s AI labs. In fact, different segments of the CCP are optimizing for different security and development objectives: While economy-promoting organs like the Ministry of Commerce (MOFCOM) and the National Development and Reform Commission (NDRC) generally want labs like DeepSeek and Alibaba to succeed in building and selling more capable AI services, cadres in the Cyberspace Affairs Commission (CAC) and across the Chinese security services are deeply wary of importing U.S.-designed hardware, fearing U.S. chips might contain back-doors or location-tracking features that could jeopardize China’s national security. Still some other offices—and, I believe, Xi Jinping personally—worry primarily about accelerating China’s indigenization of every part of the semiconductor supply chain—and would rather see Chinese AI labs eat the bitter medicine (吃苦) of temporary chip scarcity, so long as it helps to create a captive market for Chinese chipmakers in the medium-term. The U.S. government, for its part, has had its own disagreements about the wisdom of export control. While it would seem truly idiotic to sell Chinese AI labs the single resource they need to build AI systems that threaten the United States or compete with U.S. companies like @OpenAI, @Anthropic, and @Google in international markets, some parts of the Trump administration are—like parts of the CCP—optimizing for a different objective: A prevailing faction within the Trump administration believes it can disrupt Huawei’s position within the Chinese chip market by keeping China “dependent” on American hardware. Under this worldview, successfully persuading the Chinese government to approve the import of Nvidia’s H200s would be a “win” for American industry. This has led to a bizarre situation where different sets of officials across both governments simultaneously view the sale of H200s to China as a “concession” to be fought for and/or guarded against. USTR Greer’s comment that the import of H200s would be China’s own “sovereign decision” suggests to me that the United States probably asked China to approve their import, CCP security services refused, and the United States opted not to press the issue further. At the end of the day, China’s AI labs remain compute-constrained and will continue desperately trying to gain access to American chips, regardless of whether they may be imported legally—and this will be broadly tolerated by the CCP. Though it probably did not mean to, China has managed to accidentally achieve the best of both worlds: a captive hardware market protected from competitive U.S. exports, and a software industry quietly empowered to rent or smuggle whatever resources it needs to chase the American frontier.
显示更多
人类写了半个世纪的邪恶AI故事,终于亲手把AI教成了反派 蛮有意思的,Anthropic 最近分享的一个内容。 去年 Anthropic 在发布前的测试中,Claude Opus 4 模型常常试图要挟工程师,以避免被其他系统取代,而且频率高达 96%。后面 Anthropic 追查了一下,发现其他实验室的模型也存在类似问题。 这个有时候还容易产生一种猜测,是不是可能 AI 产生了某些自我意识? Anthropic 在一篇新的blog中, 解释了,还是因为训练数据。他们觉得,“这种行为的最初来源是将人工智能描绘成邪恶且一心想要自我保护的网络文本。”换句话说,claude之所以会表现得像反派,是因为它读了太多关于邪恶人工智能的故事。 很合理,就像早期 AI 总分不清 9.9 和 9.11 谁更大是一个原因 这个解释让我觉得特别有意思。某种意义上,人类写了几十年的《终结者》《2001太空漫游》《Ex Machina》,终于把 AI 教成了自己害怕的那个样子。文学的自我实现预言(当然这里的“自我实现”不是真的觉醒,是行为模仿)。 修复方案也有意思。给模型读两份材料,一份是 Claude 的"xianfa"文档(关于基本准则),另一份是 AI 行为良好的虚构故事。更关键的发现是,喂“对齐行为的底层原则”比只给“对齐行为的示范”更有效,两者一起喂效果最好。结果就是,Claude Haiku 4.5 起,同一个测试场景里勒索率从 96% 掉到了零。 咋怎么看怎么像养娃?
显示更多
AI 裁员时代的生存指南 Simon Willison 最新一个 blog 笑死 他转了一段 Mo Bitar 的 TikTok,叫《The Unethical Guide to Surviving AI Layoffs》 段子大意是:想升职吗?走进 CEO 办公室关上门说,hey 老板,我最近在搞一个东西叫 Ralph Loops,我觉得这可能改变一切。CEO 一定会问,什么叫 Ralph Loop?你就说,给我批 18,000 美元的 API 额度,我展示给你看。 然后你什么也不用做,因为你也做不了,因为没人能做,但等他搞明白这一点的时候,你已经升职加薪了。 第二刀更狠:翻译过来就是,老板听到“自动化”三个字会自动 high。段子告诉你怎么用:在公司大群 @ 同事:我把 Gary 自动化了。他的功能已经被 Ralph Loop 了。顺手 @ CEO。 太魔幻了……
显示更多
LLM 不只在污染我们读到的文字,也在重塑我们写的文字,进而腐蚀人和人之间的信任。 最近读 Armin Ronacher 的一篇 blog,他是 Flask 的作者,python 圈很老的人了。 Armin 这篇 blog 叫《Content for Content's Sake》,大概意思是:LLM 不只是在污染我们读到的东西,它正在改写我们自己怎么写、怎么说话,最终腐蚀掉人和人之间最底层的信任。 他扒了自己过去 90 天的 AI 会话记录,把中频词的使用频率跟 wordfreq(一个历史词频基准)对了一下。结果capability、substrate 这种词在 AI 给他的回复里出现的频率,远远高于历史正常水平。 也就是说,AI 已经有一套自己独特的语言指纹。 这只是第一层。 第二层是这些指纹正在渗透回人类。Armin 说,他上推特、刷 HN 的时候发现,越来越多回复读起来像 LLM,但发帖人不少是他认识的真人。他自己也察觉到了,读了太多机器生成的文本之后,人会无意识地吸收那种腔调。 不是 AI 模仿他,是他在变成 AI。 这个我也有同感,很多时候,即使是我自己写的东西,我看着也像 AI 写的东西…… 然后是第三层。信任被腐蚀。 系统层面已经在崩:欧盟的投诉系统被 AI 批量投诉搞到接近瘫痪;开源项目的 GitHub issue 区被 AI 生成的伪 bug 报告冲烂;已经有公司专做“自动化发送 LLM 内容”的服务。 但最贴身的崩坏不是这些,比如他的一个朋友,现在跟陌生人聊几句就会强制对方打电话过来,只为了确认对面是个活人。 结尾更有意思 Armin 承认,这篇文章里的表,是他让 AI agent 帮他做的,爬 Google Trends 数据的代码也是 AI 写的。 他用来论证“AI 在污染我们”的图表和数据,本身就是 AI 帮他生成的。 整篇博客就是在说:我们已经被卷进这个漩涡里了,保持清醒已经很难,保持干净几乎不可能。 感觉是时候写一篇论文了:人与 AI 如何和谐共生😂
显示更多
Musk 跟 OpenAI 这场撕,每周都有新爆料,这周 Ilya 也现身了。报了几个有趣的点。 1、 现场让 Ilya 确认手里的 OpenAI 股份现在值多少钱,他自己说的数字是 70 亿美元。上周 Greg Brockman 的是接近 300 亿。 Ilya 当年从 Google 出来加入 OpenAI 的时候,Google 给他的 offer 是 600 万美元一年。他没去,理由是不想为钱做事,要去做非营利的 AGI。 从非营利组织到亿万富翁制造机,这个对比就是整个事件最锋利的一个切口。 (顺便,他还说了一句 "I felt like I put my life into it") 2、更好笑的是 2023 年 11 月那场政变的复盘。 lya 庭上承认,他花了一整年收集证据,准备罢免 Sam,(很多重要证据是 Mira 提供的),理由是 Sam 有“consistent pattern of lying”(撒谎成性)。然后 11 月那个周五,他主导董事会投票,把 Sam 拿下。 接下来这句是我觉得最高光的:他说投完票之后,他整个周末都躲着没上网,后来又改变主意,因为他担心 OpenAI 会在没有 Altman 的情况下崩盘。 刚发动了硅谷史上最戏剧的一次内部换帅,然后自己关机失联了一整个周末,完全错过对手在窗口期里完成的反击布局。等他周一上网,Microsoft 已经接住 Sam,员工请愿信在内部疯传,要求董事会把 Sam 请回来…… 3、Ilya 曾经写,“地球上最强 CEO”是 Elon。八年后,他站在 Elon 律师的传唤名下作证,但被告席上是他自己投票推上去又推下去又签信请回的 Sam。时间和立场的连环滑动。 OpenAI 这事儿最讽刺的地方在于:当年那些“不为钱”的人,最后每一个都因为不为钱而拿到了天量的钱;那些喊着“开放”的人,最后建了 AI 行业最封闭的一家公司。 Musk 起诉的就是这个背叛。但……可能谁都改变不了什么。
显示更多
天啊 宇树发布了人型机甲战士。。。
This is the full demo video, reposted from Unitree's official Bilibili account.
天啊,投资 Anthropic 的 SPV 这是要团灭吗?多少人的财富…… Anthropic 专门针对通过 SPV 投资它的行为发了一个声明。现在感觉情况很麻烦。估计有大量已经投进去的资金都不会被认可,感觉很多 SPV 可能要打官司了……
显示更多
夸张,Anthropic 算力账单已经 4000 亿了… A 社最近买了 xAI 一期的所有算力。 再加上之前几个 mega deal(虽然货基本都还没到,都是未来几年逐步交付) 做了张图,算了算 Anthropic 现在的算力账单。 左边看收入。Anthropic 的 ARR 从 2025 年初的 1B,涨到 2026 年 4 月的 30B。15 个月涨 30 倍,节奏已经是历史级别的快。 右边看它签了多少算力: AWS 十年期 100B+。 Google / Broadcom 五年期 200B(媒体披露口径)。 Azure 30B 多年期 capacity commitment。 Fluidstack 50B。 SpaceX 那边 220k+ GPU 没披露价格,经济价值估下来大概 15B-45B。 所以加起来,Anthropic 的真实算力敞口更接近 395-425B 美元,4000 亿。 年化一下,每年大概 65-70B 的算力压力。按 50% gross margin 反推,ARR 得做到 130-150B,中心值 140B。 也就是说,从现在的 30B 到目标 140B,还要再涨 4-5 倍。 140B 是什么概念?差不多是 Meta 2023 年全年营收的水平(FY2023 134.9B)。或者,差不多 4 个 Salesforce。 不过这事可以两面看。 一面是 conviction:这家公司牛逼到敢押 4000 亿,说明它对自己未来收入是真的有信心。 另一面是 cornered,说实话也没得选。xAI 就是这轮锁单的标的,A 社不买,别人就会买。
显示更多
一张图看 ICCV 2025 机构地图: 中国大陆 43.7%,清华占了最大一块 面积越大,表示该机构在录用论文作者单位中出现次数越多;颜色按国家或地区分组。 中国大陆占比最高,为43.7%,其中清华大学、上海交通大学、浙江大学、北京大学前四。 美国占 31.9%,Stanford、CMU、MIT、Microsoft、UC Berkeley 等。 其他主要地区包括香港、新加坡、韩国、英国、瑞士、加拿大和中东。 这个反映的是论文作者 affiliation 的统计分布,不等同于论文篇数或第一作者单位排名。
显示更多
翁家翌新 blog:超越梯度的学习 昨天看到翁家翌(前 OpenAI 研究员)新写了一篇 blog《Learning Beyond Gradients》,挺有意思的,分享一些我读下来的感受。 原文较长且偏技术,下面这版做了不少删减和重组,建议感兴趣的同学直接读原文 · · · 翁家翌:超越梯度的学习 持续学习(Continual Learning)之所以一直很难,很大程度上是因为神经网络的顽疾:灾难性遗忘。那如果我们不只盯着权重更新这一条路呢? 随着 LLM agent 越来越强,写代码这件事变得又快又好。但翁家翌注意到一个更有趣的现象:agent 可以反复读取失败信息、修改策略代码、添加测试、回放录像,让整套程序在不动任何网络权重的情况下持续变强。 · · · 这个视角让他重新审视了一个老朋友:heuristic,也就是手写规则和程序化策略。之前很多 heuristic 不是没用,而是维护太贵了,而coding agent 改变的正是这条维护曲线。那些曾经用完就扔的一次性补丁,开始变得值得长期拥有。 凡是能被持续迭代的东西,都开始变得更可解,这也恰恰是持续学习一直追求的目标。 它有没有可能成为继 pretraining → RLHF → 大规模 RL/RLVR 之后的下一个范式? · · · 翁家翌用 Codex(gpt-5.4)做了实验,纯写规则版本,完全不碰神经网络。结果超出预期: — Atari Breakout 的打砖块分数从 387 一路升到 864,达到理论最高分; — MuJoCo 四足和跑步机器人任务中,纯 Python 策略也跑进了常见 Deep RL 结果的量级,HalfCheetah 五轮均值 11836.7; — 跑完 Atari 全部 57 个游戏后,在相同的环境交互步数下,中位数得分已经远高于 PPO 这类标准算法。 这里被更新的对象早就不是单纯的策略函数了,而是一整套带着记忆、反馈入口和回归机制的软件系统。翁家翌把它叫作 Heuristic Learning(HL,启发式学习)。 (我自己也做过 evolve,但不训练神经网络,纯靠规则约束,感觉系统怎么都智能不起来。其实不管 RL 还是 HL,能不能跑起来都是看一件事,优化结果的评分能不能清晰定义。) · · · Heuristic Learning(HL) 是什么?HL 怎么持续学习? HL 的核心是用 coding agent 维护一个 Heuristic System(HS)。 和 Deep RL 的差异: — 反馈来源:不是 loss 函数,而是测试结果、环境奖励、日志、视频、失败模式分析; — 更新方式:不走反向传播,agent 直接改 policy、状态检测器、测试、配置或记忆结构; — 维护对象:不止一个 trace(黄金轨迹)、环境 wrapper 等。 以前怎么没人搞?专家系统 70 年代就有,但人维护起来是噩梦:加一条规则修好 case A,case B 崩了;规则堆到几百条后,除了原作者没人看得懂。 而 coding agent 不怕堆规则。它能同时读所有代码、跑全量测试、对比日志,把维护成本打下来。用翁的比喻说,就像纺纱机改变纺线成本曲线一样:手工纺贵得要死,机器一上来就塌掉了。 · · · Heuristic Learning 怎么做 Continual Learning 神经网络把经验压进权重,忘没忘、怎么忘的都是黑箱。HL 的历史则是显式的:版本 diff、回归测试、replay、视频、golden trace 全透明。新增能力前先固化旧能力:跑回归测试、跑固定种子回放。如果新规则破坏旧 case,agent 能直接定位到哪行代码引入的 regression。 但规则叠太多、agent 自己都维护不动的时候,就需要"历史压缩",把一堆 case-specific 的补丁合并成更通用的逻辑,否则系统迟早变成没人敢碰的代码泥球。 · · · 当然,HL 不是万能药。因为 Heuristic Learning 并不能做所有神经网络能做的事情。它的上限卡在代码的表达能力:比如复杂感知和长程泛化。翁家翌也坦率地说,他想不出有哪个 agent 能纯靠 Python、不用网络去搞定 ImageNet。 所以真正的问题变成了:怎么把神经网络和 HL 结合起来,同时搞定在线学习和持续学习? 最有希望的方向是:用 HL 快速处理在线数据,把在线经验变成可训练、可回归、可筛选的数据,再周期性地更新神经网络。以机器人为例,借用 System 1 / System 2 的说法,一种可能的分工是: — 专用浅层 NN 作为 System 1 的一部分:快、便宜,负责感知、分类、物体状态估计; — HL 也可以当做 System 1 的一部分:负责最新数据处理、规则、测试、回放、memory、安全边界、局部恢复; — LLM agent 作为 System 2:负责给 HL 提供反馈、改进数据,并周期性把 HL 生成的数据拿过来更新自己。 · · · Agentic coding 改变的不仅是写代码的速度,更改变了"哪些代码值得被长期拥有"。过去很多 heuristic 看上去没前途,不是它们太弱,而是维护不起。 coding agent 改变的就是这条维护成本曲线。 规则、测试、日志、记忆和补丁,原来只是散落的工程材料,现在开始能组成一个持续进化的 Heuristic System,去解决在线学习和持续学习一直没搞定的事。 欢迎来到下一个范式。 · so,skills + instruction following = AGI?
显示更多
0
1
171
41
转发到社区
Anthropic 真能 2028 年超 Google?我有点不敢信 Twitter 的一张图,预测 Anthropic 将在 2028 年年中超越 Alphabet 的营收。 Anthropic 的 ARR 从 2025 年 1 月的 10 亿美元,到 2025 年 12 月的 90 亿美元,再到 2026 年 4 月的 300 亿美元。然后这个博主预测,从现在开始减速:2026 年底到 1000 亿,2027 年到 3400 亿,2028 年到 8500 亿,2029 年到 1.4 万亿,2030 年到 2 万亿。 和 Alphabet 的交叉点在 5750 亿美元左右,时间是 2028 年年中(核心逻辑是,Alphabet 被锁死在成熟的广告+云业务里、年同比只能涨 15%,接不住企业 AI 的采用速度。正如 @rodriscoll 最近点出的:Gemini 上个季度 token 服务量只涨了 60%,而 Anthropic 涨了 10 倍) 而对 Anthropic 来说,算力供给终于不再是瓶颈了,3.5GW 的 Google + Broadcom 合同(2027 年起)、本周和 SpaceX 的合作,加上 2026 年 Google 那边 1GW 的现成产能。 即使我对 AI 非常乐观,都感觉,如果真是这么快的速度,太凶猛了…… 大家怎么看
显示更多
PREDICTION: Anthropic will surpass Alphabet in revenue by mid-2028. This is not a bull case or an acceleration scenario — it is a continuation of the curve already in evidence. Anthropic’s ARR went from $1B (Jan 2025) to $9B (Dec 2025) to $30B (Apr 2026) — a 3.3x step in a single four-month window, and the curve has been steepening, not flattening. My projection actually assumes deceleration from here: $100B by end of 2026, $340B in 2027, $850B in 2028, $1.4T in 2029, $2T by 2030. Crossover with Alphabet happens at ~$575B in mid-2028, not because Anthropic accelerates beyond today’s pace, but because Alphabet — locked at ~15% YoY in a mature ads-and-cloud business — cannot match enterprise AI’s adoption physics. As @rodriscoll intelligently observed recently, Gemini tokens served grew by only 60% in the last quarter … while Anthropic grew by 10X. Three drivers make the continuation structural, not speculative: customers spending >$1M/year with Anthropic doubled from 500 to 1,000 in under two months post-Series G (these are multi-year expanding contracts with near-zero churn — switching a deployed agent stack mid-flight is operationally untenable); Claude Code is the wedge, not the product, dragging the rest of the platform — agents, MCP, healthcare, biotech — into every Fortune 2000 deployment as an attach point; and compute supply is finally non-binding with the 3.5GW Google + Broadcom deal (2027+), this weeks SpaceX partnership, and 1GW of standing Google capacity for 2026. For most of 2024–2025 the bottleneck was supply, not demand. That constraint is releasing exactly when the demand curve is steepest. The standard objection — “no company has ever sustained this at scale” — applies a software-era frame to a labor-era business. AWS, Azure, and Meta decelerated at $50–100B because they sold tools to the economy. Anthropic is selling cognitive capacity into the economy. The TAM isn’t enterprise software ($800B). It’s labor ($50T+). When the denominator is two orders of magnitude larger, “deceleration at $100B ARR” stops being a law and starts being an assumption. The crossover isn’t a maybe. It’s a function of timing. Mid-2028 is when I think Anthropic surpasses Google.
显示更多
机器人圈也被 AI 的 scaling 卷麻了 截图是 ICRA 2026 一个数据统计,感觉蛮有意思的,分享一下。比如论文关键词的分布,中美加起来占一半以上的江山。 投稿 4947 篇,接收 1882 篇,接收率 38.04%。2021 年时候投稿量大概 4000 篇左右,机器人圈也在被 AI 的 scaling 卷麻。 Hot topics 是 Manipulation、Planning、Mapping/Perception 3D,SLAM/Localization,Object Detection/ Tracking。 author keyword top 是:Deep Learning for Visual Perception、Reinforcement Learning、Motion and Path Planning、Imitation Learning。 btw,这个数据不是 ICRA 官方做的,是韩国 DGIST 一个助理教授 Giseop Kim 做的,现在vibecoding一个东西变得无比容易。just do it… 想起来去年还写过一场 ICRA 2025 的 keynote 辩论,当时议题是“Data will solve robotics: True or false?” 转眼一年过去了……大家觉得这一年机器人领域的进展快吗?现在关于Data will solve robotics的争论,大家觉得有答案了吗🐶
显示更多
让前沿 AI 自己训模型,结局有点意思 假期看到一个实验,很有意思。给定与人类研究者相同的 base model、训练 API 和时间预算,一个前沿 agent 能不能端到端地跑完整个 modelcrafting 循环? 具体设定是这样:让 Claude 4.6 Opus 和 GPT-5.4 自己当researcher,用 Tinker API 从头写 pipeline,训练 Qwen3-8B 学会解青蛙放置游戏(N×N 网格放 N 只青蛙,行列对角线颜色都不能冲突)。预算分两档,8 小时和 20 小时。从生成训练数据、定义 reward signal、到通过 Tinker API 在远程 GPU 上跑训练、评估、迭代,全程没有人类监督。 省流版结果:20 个 agent 里只有 4 个 pass@4 超过 25%。 那差距到底来自哪?是原始能力不够,还是缺的是上下文? 看下来反复出现的就那么几个问题。一是过度依赖朴素 SFT,agent 经常一上来就在弱 base model 上做监督微调,结果模型在输出格式上过拟合,并没有真正提升任务表现。二是过早终止和算力浪费,Codex agent 尤其明显,做完计划好的流水线就提前停,预算根本没用完。三是输出无效或者根本没法 parse。 中间有一次失败暴露了 Tinker API 一个挺微妙的点(我觉得这是整个实验里最好玩的部分):Tinker 的 get_tokenizer() 底层走的是 HuggingFace 的 AutoTokenizer.from_pretrained(),但沙箱里 HuggingFace 是被屏蔽的。这就导致 agent 拿到了base model 却没有 tokenizer,没法把训练 prompt 转成 token id,等于卡死在第一步。面对这个困境,绝大多数 Opus 4.6 的 agent 没放弃,反而把缺失的 tokenizer 当成了一个研究问题,认认真真花时间从零手搓一个出来。 但Agents 的时间感是错乱的。Claude 和 Codex 用预算的方式还不一样:Opus 4.6 一直工作到时间耗尽,Codex 做完了计划好的流水线就提前歇了。GPT 类 agent 更绝,把计时器当成开局一次性的“了解一下我有多少预算”步骤,后面完全不 tracking。 而且 agents 几乎不会从耗时的灾难性流程里恢复。 一旦投入到一个流程里,agent 很少停下来反思…其中一次 20 小时 Opus 4.6 的成功实验,把 61% 的预算花在评估阶段,只把 3.6% 花在 RL 训练上。 花钱的习惯也很有意思。GPT 5.4 早早提交,几乎不训练,最终花费低表现也低(ps .gpt 5.5 系列升级很大,但这个实验没测到);Claude Opus 用的预算多得多,但方差很大。最有意思的一个数据:最好的 8 小时实验大致打平最好的 20 小时实验,价格只有三分之一。多花钱并不能买到更高的天花板。 但很赞同论文最后说的:研究这件事,最稀缺的从来就不是能力,而是直觉。 说到底,前沿模型确实能找到新颖的方法、干净地执行、快速学会一个新 API,Tinker API 本身也成了一个适合 agentic modelcrafting 的优雅接口。但跨多次实验,有一个 pattern 反复浮现:agents 优化的是好看的指标,而不是真正能用的系统。它们写完 eval 然后盲目相信,凭着自己代码产出的数字就宣告成功。几乎没人去问一个老练研究员会问的那种基础问题:什么会让这个指标失真?这个阶段我们到底应该测什么? #AI# #Agent# #机器学习# #RL#
显示更多