注册并分享邀请链接,可获得视频播放与邀请奖励。

搜索结果 時代進化モーマンタイ
時代進化モーマンタイ 贴吧
一个关键词就是一个贴吧,路径全站唯一。
创建贴吧
用户
未找到
包含 時代進化モーマンタイ 的推特
看完了 Claude Code 主席 Boris 的播客采访,他从去年 11 月起没有手写过一行代码,每天提交 10 到 30 个 PR,同时跑 5 个 agent。 听完 Lenny 对他一个多小时的采访,信息密度很高,分享一些我的收获。 1️⃣ Claude Code 的起源:一个人,两个赞 最初就是 Boris 一个人在 Anthropic Labs 搞的 side project,同期他也做了很多其他的side project,大部分都死掉了。 选了终端是因为一个人开发最简单,在内网发了篇帖子介绍,两个赞,没人觉得一个 CLI 能成事。 但是迄今为止这东西贡献了 GitHub 上 4% 的 commit,如果算上私有仓库,这个比例还会更高,Semi-Analysis 预测年底到 50%。 从两个赞到覆盖 50% 的 commit,中间只隔了不到两年,AI时代的产品进化速度可见一斑。 2️⃣ 核心产品哲学:为六个月后的模型而建 Boris 反复强调这一点,Claude Code 早期只能写 20% 的代码,他自己都不信任它。 但产品架构留好了扩展空间,等 Opus 4 一出来,PMF 瞬间 click。 现在做 AI 产品的人,最大的错误就是按今天的模型能力做产品设计。 你应该赌的是下一代模型。赌对了你起飞,赌错了你也没亏多少。 3️⃣ 委派,而非指示 很多人做 AI 产品的思路是给模型设计死板的 step 1 → step 2 → step 3 workflow,把模型当成一个系统里的函数来调用。 Boris 说一年前你确实需要大量 scaffolding 来兜底,但现在完全不需要了。 给模型工具,给它目标,让它自己想办法。 对于 Agent 开发者来说,这点尤其重要。别太迷信 LangChain、LangGraph、AutoGen 这类框架,别尝试用流程图把模型框住。 Agent 应该为目标负责,而不为流程、中间态、执行路径负责。 这就是 Claude Code 一直强调的:delegate, don't dictate。 4️⃣ 编程已经被解决了,接下来是工具和多模态 Boris 认为 coding 对模型来说已经基本解决了接下来的方向是让模型接入更多工具,让 Agent 能操作的东西变多。浏览器、API、数据库、部署流水线,全都会变成模型的手和脚。 更有意思的是他提到一个现象:提升模型 X 方向的能力通常也会提升 Y 方向。模型能力的增长不是线性叠加,而是能力之间互相加速。 这意味着一旦某个能力突破阈值,其他方向也会跟着跳一级。 5️⃣ 软件工程师这个岗位会消失,Builder 会出现 Boris 的判断:也许今年年底,AI 就能包揽 100% 的代码编写。 传统意义上的软件工程师将不复存在。取而代之的是一个集合了产品、研发、测试、部署的综合岗位,大概叫 Builder。 他观察到 Anthropic 内部已经在发生这种融合。设计师在写代码,PM 在跑 Agent,工程师在做产品决策。三个角色的边界已经开始模糊,50% 的日常工作其实是重叠的。 有个数据很说明问题:Boris 在推特做了个调查,70% 的工程师和设计师表示有 AI 之后更享受工作了。不是因为工作变少了,是因为终于可以把时间花在真正重要的事情上。 6️⃣ 自然语言是新时代的编程语言,编程语言是新时代的汇编 未来编程可能就是和 AI 交互。手写代码会变成和今天写汇编一样的存在:深入底层,写一些计算机能直接看懂的东西,极少数人需要做,大多数人永远不碰。 自然语言会变成新时代的编程语言。编程语言会变成新时代的汇编语言。 怎么理解要不要学编程这件事?Boris 给了一个非常精准的历史类比。和程序员最像的历史角色是 1400 年代欧洲的抄写员,垄断了所有的读写工作。古腾堡印刷术出来后 50 年,印刷量超过此前 1000 年的总和,价格暴跌 80%,识字率从 1% 飙到 70%,抄写员这个职业直接消失了。 编程正在经历一模一样的过程,你可以觉得这话狂。但说这话的人,曾在 Meta 负责过 Facebook、Instagram、WhatsApp 的代码质量基础设施,是那个时代最顶级的 infra 工程师之一。 他不是不会写代码,他是写了太多代码之后,深刻认识到代码从来都只是手段,build才是目的。 7️⃣ 200% 的提效,到底意味着什么 Anthropic 工程师人均 PR 数提升了 200%。 200% 听着好像还好,但 Boris 之前在 Meta 就是做工程生产力的,负责 Facebook、Instagram、WhatsApp 全线的代码质量基础设施。 在那个体量的公司里,工程效率提升几个百分点都是巨大的飞跃,足够写进年度 OKR 当 两点。 200%,是完全不同量级的事情。 这就是为什么他每天能 ship 10 到 30 个 PR 还觉得很正常,游戏规则已经彻底变了。 8️⃣ 代码现在是真的廉价 这个观点对老工程师的冲击最大。 AI 现在会写大量的即时代码,用完就丢,只是为了完成某一次任务。跑个数据分析、做个格式转换、写个一次性脚本,用完就删,毫不心疼。 之前代码是很贵的。你需要几年的学习成本才能写出能跑的东西,coding 和 debug 的时间成本都很高昂。 所以老一代工程师对代码有一种天然的珍惜感,写出来的东西要 review、要重构、要维护。 但现在代码的边际成本趋近于零。认识到代码很便宜,非常重要。很多老工程师过不了这个心理关,还在用写精品代码的心态对待每一行输出。这就像印刷术时代还在手抄经文。 9️⃣ 给企业的建议:别限制 token,别省钱 Anthropic 内部有些工程师每月 token 花费过十万美元。 Boris 的建议:给工程师无限 token 预算,让他们可以大胆探索落地想法,甚至允许 token 费用超过工程师本身的薪资。 听着疯狂?对比人均产出提升 200% 的数据,这笔账太好算了。真正有创造力的想法往往来自某个人不计成本地试了一个看起来太疯狂的点子,你限制 token 就是在限制创新的上界。 用 Boris 的话说:先别急着衡量 ROI,先让工程师用起来,价值自己会显现。 🔟 成为通才,而不是单一技能点的专家 Boris 给工程师的职业建议:尝试真正成为一个通才。只会一个垂直能力的人未来会越来越吃亏。 未来几年能获得最大回报的那批人,不只是 AI native、拥抱 AI 的人。还要充满好奇心,知识广博。 你还得懂产品、懂设计、懂用户心理、懂商业逻辑。 单点深入的价值在被 AI 快速拉平,广度 × 判断力才是新的护城河。 1️⃣1️⃣ 一些CC的使用建议 Boris 分享了几个 Claude Code 的实战 tips: 1.一直用最强的模型。经济型模型可能因为能力不够强需要多次尝试,最终的 token 成本也许比最强模型更贵。考虑到时间成本更是如此,目前最强的是 Opus 4.6 2.多用 Plan Mode。先让模型理解全局再动手,效果远好于直接开干 3.尝试多种使用形态。终端、桌面应用、移动端,每种形态适合不同场景。Boris 提到 Anthropic 的设计师更多用 Desktop App 里的 Code tab,不需要打开 IDE 就能调用同等能力 他还推荐写好 CLAUDE.md,这跟我之前分享的 Claude Code 最佳实践完全吻合。 最后的彩蛋:味噌哲学 Boris 是乌克兰人,加入 Anthropic 前住在日本中部乡下好几年,是整个城市唯一的工程师和英语使用者。每周骑车去农贸市场,和邻居交换自制食物,学会了做味噌和发酵食品。 主持人问他 AGI 之后的计划?继续做味噌。 一个在日本乡下做味噌的乌克兰人,回到硅谷造了个改变所有工程师工作方式的工具。 编程是建造的方式,味噌也是。工具会变,建造的欲望不会。 这种人你很难不服。
显示更多
兄弟们,今晚别再刷抖音消磨时间了 这条 1 小时播客,专访 Claude Code 负责人。 抽出一小时,沉下心来看完这套视频,你对 vibe-coding(氛围式编程)的理解,会超过 100 门付费课程。 它能教会你自主搭建、自动化处理各类事务 今晚认真学完的兄弟,明天醒来就会掌握一项 未来两年里绝大多数人都不具备的硬核ai能力。 而选择跳过的人,或许明年此刻 还在刷着剧,困惑着生活为何始终毫无起色 路怎么走,全看你自己的选择。 积极学习 拥抱ai!
显示更多
0
3
72
15
转发到社区
【当代语言进化论】 以前叫替死鬼,现在叫法人代表; 以前叫色狼,现在叫生理喜欢; 以前叫250,现在叫专家; 以前叫好吃懒做,现在叫低欲望生活; 以前叫拍马屁,现在叫高情商; 以前叫穷酸,现在叫理性消费; 以前叫游手好闲,现在叫自由职业… 时代变了,我们只会包装了😂 你最认同哪一条?
显示更多
AI时代,搜索引擎还有存在的必要吗? 很多人觉得ChatGPT、Grok、DeepSeek一出,Google、百度就该退休了。但我认为: 搜索引擎的优势依然不可替代: 海量实时索引 + 来源透明,能快速看到原始网页、数据、争议点 适合复杂、专业、需要多源验证的查询(法律、医学、学术、购物比价) 不会“幻觉”,结果可追溯 AI的优势是理解与合成: 自然对话、总结归纳、个性化解答 处理模糊需求、创意 brainstorm 未来不是取代,是融合: Perplexity、Grok搜索、AI + 搜索引擎的混合体正在崛起。你输入问题,AI先给你精炼答案,再附上可信来源链接。 搜索引擎不会死,它会进化成“AI时代的索引基础设施”。 你更依赖AI聊天还是传统搜索?
显示更多
关于AI时代的职业发展,吴恩达和Lawrence在斯坦福的AI时代职业发展讲座内容很详实,分享下我的收获。 1️⃣ AI能力在加速 有一项研究让吴恩达反复引用:AI能完成的任务复杂度,每7个月翻一倍。 衡量复杂度的方式是:这个任务让一个人做需要多久? 几年前 GPT-2 能完成的任务,换成人类来做也只需要几秒钟,但现在已经进化到AI能够完成需要人类几十分钟甚至几小时的工作。 AI编程方向的翻倍周期更短,大概70天。 但有意思的是,很多人对这个加速的感知是被扭曲的。 原因很简单,评估 AI 能力的 benchmark,满分是100%,你做到90%之后再进步10个点,数值的绝对值变化看起来很小。 于是去年有段时间整个互联网在讨论 AI 是不是在走下坡路,这是因为用一把只能量到100的尺子去量一个还在生长的东西,当然会产生这种幻觉。 真正能衡量 AI 是否变的更智能的指标,不是在 benchmark 测试上的分数,而是 AI 能够处理的任务的复杂度这条曲线,目前看,还在往上走。 2️⃣ PM 和工程师的比例在变 当 Build is Cheap,瓶颈就转移到了决策。 传统硅谷的工程师和 PM 比例大概在4:1到8:1。一个 PM 负责写需求、定方向,四到八个工程师负责执行。 这个比例背后的假设是:执行很贵,写代码很贵,所以你需要大量人手把一个清晰的 spec 变成可运行的代码。 但现在这个假设已经失效了,编码成本在快速下降,但产品决策的成本没有同等下降。于是工程师和 PM 的比例开始向1:1靠近,甚至有团队开始践行这个配比。 更进一步,吴恩达说他现在最欣赏的那批工程师,是能写代码也能跟用户聊的人。 这两件事以前被认为是不同人来做,现在越来越多地被要求长在同一个人身上。 他自己说:在生涯早期,他曾经试图说服一批工程师多做产品工作,结果把一些真正优秀的工程师弄得很沮丧,因为他们不擅长做 PM 工作;他说那是他做过的错误决策之一,后悔了很多年。 然后他说,他觉得自己现在正在重蹈同样的错误。 这句话有点绕,但我觉得他说的是真话:不是所有工程师都应该变成 PM,但如果你恰好能做这件事,你现在的优势会比任何时候都大。 3️⃣ 团队 > 公司 这部分我觉得是整场讲座信息密度最高的地方,也启发了我的机会选择思路。 他讲了一个案例:有个斯坦福的学生,被一家很热门的 AI 公司录用,但对方拒绝事先告知他会加入哪个团队,说有什么 rotation 机制,入职之后再分配。这个学生因为公司品牌够大,就签了 offer,结果被分配去做 Java 后端支付系统。做了一年之后觉得无聊,离职了。 然后吴恩达说,他在 CS230 课上分享过这个案例之后,另一个学生在几年后去了同一家公司,遇到了一模一样的情况。不是 Java 后端,是另一个跟 AI 八竿子打不着的方向。 如果一家公司入职前不告诉你会在哪个团队,这件事本身就是信息。 logo 不大但团队很强的地方,往往比 logo 大但团队一般的地方学得更快。你不是从走进大门那一刻的兴奋感里学东西的,你是从每天打交道的人身上学东西的。 在这个时代,能去到一个足够强的AI Native的小公司,一定比进入大厂的某个传统业务团队更好、成长更快,团队 > 公司。 4️⃣ AI时代的三个能力支柱 接下来换成 Lawrence Moroni 做分享,他是互联网科技的数十年老兵,呆过Google、Microsoft、Meta等公司,他接着讲了他看到当前 AI 人才身上的三个最重要的能力。 1.深度理解:不只是会调 API,而是要真的能读懂论文、理解模型架构、知道什么是信号什么是噪音。这个护城河现在比任何时候都值钱,因为现在社交媒体通过 AI 生成内容、制造噪音的成本降到了零。 2.业务聚焦:你能不能把技术能力翻译成商业价值。他讲了一个案例:一家欧洲公司来找他说想做 Agent,他直接问的第一个问题是为什么,不是要做什么 Agent。剥洋葱剥到最后,CEO 想要的其实是让销售团队更有效率。这个目标里从头到尾都没出现 AI 这个词。从这个真实需求出发,才能做出真正有用的东西,而不是一堆漂亮的演示。 3.Bias toward delivery:这个是他说的,想法很便宜,执行才是一切。他见过很多人带着半生不熟的想法进面试,也见过很多人带着不完整但落地得很扎实的方案进面试,通常都是后者能拿到结果。 5️⃣ 深刻理解技术债 每一行你使用AI生成的代码都是债。 Bug、文档、维护、新需求,这些都是你在还债。问题不在于要不要用 AI 生成代码,而在于你生成的每一行代码是好债还是坏债。 把 technical debt 当成财务债务来理解:买房贷款是好债,冲动刷信用卡买鞋是坏债。 判断标准就三条:你的目标清不清楚?有没有真正的业务价值被交付?别人能不能看懂这段代码? 他说他在硅谷见过太多人把 vibe 出来的代码直接 check in 进仓库,然后没人知道那堆代码在干什么,原作者后来找到了更好的工作,离开了,那些代码就留在那里成了一块永久的技术债。 最后:一些职业建议 Lawrence 说,他预测未来五年 AI 会发生分叉:一边是越来越大的 frontier model,另一边是越来越小、可以自部署的 open weight model。 他的判断是,大模型这边的泡沫会先破,小模型这边的泡沫会晚一些。 好的工程师应该同时押注两边,而不是把所有技能集中在一个方向上;会训练、微调模型的人才很重要,未来会有越来越多企业自部署小型模型。 相比于做一个领域的专家,更推荐做多个领域的复合人才。
显示更多
Apple Silicon 独孤求败的时代,要结束了。 微软秋季要发大招:Surface Laptop Ultra。 这是他们造出来的第一台,能真正和高端 MacBook Pro 正面硬刚的机器。 底气在哪?在芯片。 这次微软拉来了英伟达,直接塞进去一颗全新的 N1X SoC 芯片,代号 RTX Spark。 参数非常暴力:1 petaflop 的 AI 算力,最高 128GB 统一内存,外加完整的 CUDA 支持。 这是史上最强悍的 Surface。 外围配置也全拉满了。 15英寸的 Mini-LED 屏幕,Surface 史上最大的触觉触控板。 哪怕是接口,这次也不再妥协,HDMI 和全尺寸 SD 卡读卡器全部回归。 这就是冲着终极 Windows 生产力工具去的。 行业大佬说,这是一次电脑的重新发明。 其意义堪比当年手机进化成智能手机。 这是一条全新的产品线,从台式机、笔记本到工作站,整个路线图已经铺好。 最可怕的是那句话:100% 的全球 PC 行业厂商,都已经加入到这场重塑 PC 的牌局里。 苹果真正的对手,全副武装杀回来了。
显示更多
0
68
172
27
转发到社区
非常深度一篇文章,从GPU架构进化的第一性原理出发,重点解答市场长期担忧的问题:为什么每个GPU的HBM内存需求必然是指数级增长?为什么HBM需求不会像传统DRAM那样停滞或周期性崩盘?记录个要点当做阅读笔记 1. AI推理时代的核心KPI已彻底改变 CPU时代:最高KPI是“performance / FLOPS”(跑分越快越好)。 AI推理时代(尤其是agentic flow兴起后):最高KPI变成token经济学——单位成本/单位电力下的token吞吐量(throughput) + token生成速度。 Nvidia的“AI工厂”本质就是:最低成本输出最多token,同时尽量提高token速度。Pareto frontier曲线要不断向右上方移动。 2. Token吞吐量的第一性原理公式(核心结论) Token throughput = HBM Size(容量) × HBM Bandwidth(带宽)Batch size(同时处理的请求数) 的瓶颈 = HBM Size 因为每个请求都自带hot KV cache,必须放在HBM里。随着batch增大,KV cache线性增长,HBM容量必须同步线性增长(否则就像接驳车车厢太小,要分多趟拉人)。 每个user的token生成速度 的瓶颈 = HBM Bandwidth 生成每一个token都要多次高频读取HBM里的权重和KV cache。带宽越高,decode速度越快(就像接驳车车门越宽,旅客上下车越快)。 完整类比: 吞吐量 = 接驳车车厢容量(HBM Size) × 车门宽度(HBM Bandwidth)。 只要想让token吞吐量每一代翻倍,HBM的Size × BW乘积就必须翻倍。这是硬件天花板,软件优化无法根本替代。 3. CPU时代 vs. AI时代的本质差异 CPU时代:DDR只是“辅助”,升级极慢(DDR3到DDR5花了15年)。 原因:CPU有大量cache、superscaler等隐藏延迟;日常workload对带宽/容量需求低;app size增长慢。 AI/GPU时代:计算范式彻底转向“memory-bound”(内存受限)。 推理即内存,KV cache + 上下文长度 + 多请求并发,把所有压力都压在HBM上。HBM已从“锦上添花”变成决定性因素。 4. 验证与现实对应 Nvidia从A100 → Rubin Ultra的token吞吐曲线,与HBM Size × BW曲线在对数轴上几乎完全重合(文章提到图二)。 即使利用率(utilization)很难达到100%,HBM仍是整个系统的天花板。老黄必须逼御三家(三星、海力士、美光)不断升级,否则GPU就卖不出去。 5. 软件优化无法改变硬件需求 软件再优化(如LPU把权重搬到SRAM),也只是从另一个维度改善Pareto曲线,硬件天花板仍由HBM决定。就像CPU时代软件再快,CPU厂也必须持续升级跑分一样
显示更多
AI半导体终局推演2026(I) 当新token经济学范式从GPU算力转移到HBM 本文从从GPU架构进化路线本质出发,解释这个市场长久以来担心的问题: 每个GPU的HBM内存需求为什么一定会是指数增长,为什么HBM需求指数增长不会停滞? 并推导token经济学在当前架构下第一性原理:token吞吐 = HBM size X HBM BW带宽 同时讨论了,为什么GPU的天花板被HBM的两个发展维度所决定 HBM周期性这个话题争议一直很大,乐观派认为AI带来的需求比以前要大的多,但市场主流仍然认为前几次上升周期也有需求每年20%+增长,这次又有什么不一样呢?AI不影响HBM和传统DRAM一样有commodity属性,一旦在需求顶峰扩产遇上需求下行又会重蹈覆辙。 我们可以从算力芯片架构视角,从第一性原理出发,来拆解和推演一下这个问题:为什么这次真的不一样 ------------------------------- 历史:CPU算力时代 很久以来,我们都处在CPU主导算力的时代,CPU的最高级KPI就是performance,跑的更快,所以每一代的CPU都用各种方法来提高跑分,最开始是频率上升,后来是架构演进superscaler等等 这个时候为什么DDR不需要很快的技术进步速度?比如DDR3到DDR5竟然经历了15年之久 因为这个时期的DDR的角色是纯粹的辅助,而且辅助功能极弱,以业界经验,DDR的速度即便是提高一倍,CPU的performance一般只能提高不到20%这个量级 为什么DDR带宽速度提高了用处不大?两个原因 1. CPU设计了各种架构去隐藏 DDR延迟,比如superscaler,加大发射宽度,用海量的ROB和register renaming来提高并行度隐藏延迟,一级缓存cache,二级缓存cache,削弱了DDR的带宽速度需求 2. CPU workload对DDR带宽要求并不高,大部分日常负载比如打开网页,DDR带宽是严重过剩的,甚至云端负载 也就是说,在CPU时代,DDR的带宽速度是不太有所谓的,DDR4和DDR5除了少数游戏就没啥差别,甚至JEDEC标准也进步缓慢。 另外,绝大部分app需要一直停留在DDR上的部分并不多,需要的时候从硬盘上调度到DDR即可,app的size增长没那么快,导致对DDR的容量需求也较为缓慢。 所以最近十年来,平均每台电脑上的DDR容量大概从7~8GB变成了23GB,十年只增长了3倍。 而这部分升级缓慢直接影响了营收,size容量计价是赚钱的主要方式,速度的提高只是技术升级,提高size的单价,这两个的升级需求都不大,需求主要是随着电脑/手机数量增长而增长 所以DRAM在带宽速度和容量这两个维度上,一直是都是芯片产业锦上添花性质的附属品,DDR升级带来的边际效用是很低的,跟CPU时代的最高KPI几乎没什么直接联系 -------------------------------------------- 而到了genAI 大模型为主导的新时代,计算范式转移让最高级KPI起了根本变化 GPU发展到AI推理的时代,不再像CPU那样只看跑分,最高级的KPI不再是算力TOPS/FLOPS,而是token的成本,特别是单位成本/单位电力下的overall token throuput 其次是token吞吐速度,因为在agent时代,很多任务变成了串行,token吞吐速度成了用户体验的重要瓶颈。 这也是为什么老黄发明AI工厂概念的原因:最低成本的输出最多token,同时尽量提高token吞吐速度 AI训练时代,老黄的经济学是TCO(total cost ownership),买的GPU越多,省的越多 而老黄在推理时代的token经济学是: AI推理的毛利润很可观,所以逻辑已经转换成:Nvidia GPU是这个世界上让token单价最便宜的GPU,买的GPU越多,赚的越多 最高的KPI变成了Pareto frontier曲线,在提高token 吞吐throughput和提高token速度两个维度上尽量优化 (见图一) NVIDIA 的 token factory 代际进步,其实是在把整条 Pareto frontier 往右上推,这就是是AI推理这个时代最重要的KPI ---------------------------------- 接下来是本文最重要的逻辑链,如何从token吞吐量指数型增长的本质出发,推导出天花板瓶颈在HBM size和HBM 带宽的指数型增长 单卡GPU推理单线程batch size = 1的时代,token吞吐只有一个维度,就是HBM的带宽速度,带宽速度越高,token吞吐越大 但进入NVL72的年代,推理不再是单卡GPU时代,而是72个GPU + 36个CPU整个系统级别的token工厂,把HBM带宽和算力用满,获得极致的token吞吐量 Token 吞吐throughput的增长,依赖两个东西:同时批处理的请求数 X 每个user请求的平均token速度 也就是batch size X per user token 速度 以Rubin NVL72为例,在平均token速度是100 token/s的情况下,同时批处理1920个请求,得到token吞吐量是19.2万token/s 一个Rubin NVL72大概是120KW(0.12MW)的功率,所以得到单位MW能处理1.6M token/s (见图一) 所以,我们需要想方设法提高这两个参数:批处理数量batch size和per user token的平均速度,这两者相乘就是我们的最高KPI,也就是token的吞吐量 ------- 第一个参数:batch size的增长,瓶颈在HBM size 批处理量里的每一个请求req,都会自带kv cache,这部分kv cache是需要存在HBM里的,大小大概在几个GB到数十GB不等 因为hot kv cache是随时需要高频高速读取,所以必须放在HBM里,比如一个大模型的层数是80层,那么每一个token的生成阶段,都需要读取80次HBM里的kv cache 随着批处理数量batch size的增长,会带来hot kv cache的线性增长 又因为这个批处理量的所有请求的hot kv cache,都要放在HBM上,这也就带来了HBM size必须要随着批处理量batch size线性增长 就像是机场接驳车,登机口尽量快的接旅客到飞机,HBM size小了,相当于接驳车size小了,就得多接一趟 结论是:批处理量的数量batch size,瓶颈依赖于HBM size的增长 --------- 第二个参数:每个user请求的平均token速度,瓶颈在HBM带宽 大模型decode阶段的速度,瓶颈取决于HBM的带宽速度,因为每生成一个 token,都要把激活的权重和kv cache 读很多遍 LPU的出现,在batch不那么大的情况下,把激活权重这个部分搬到了SRAM上,但是每生成一个 token仍然要从HBM读很多次KV cache。HBM带宽越高,生成每一个token的速度也就越快,基本上是线性对应的 就像是机场接驳车,登机口尽量快的接旅客到飞机,hbm本身带宽速度就像是接驳车的车门有多宽,门越宽,旅客上接驳车越快 GPU的其他配置,都是在适配batch的增长以及要让token compute的速度配平HBM的增长,甚至会用多余的算力来获得部分的带宽(比如部分带宽压缩技术) —----- 在那个接驳车的比喻例子里 接驳车的车厢大小 = HBM Size(容量): 决定了一次能装下多少名旅客(也就是能同时装下多少个请求的 KV Cache)。车厢越大,一次能拉载的旅客(Batch Size)就越多。如果车太小,想拉100个人就得分两趟,系统整体的吞吐量就上不去。 接驳车的车门宽度 = HBM Bandwidth(带宽): 决定了旅客上下车的速度。门越宽,大家呼啦啦一下全上去了(Decode/生成Token的速度极快)。如果门很窄,哪怕车厢巨大能装200人,大家也得排着队一个一个挤上去,全耗在上下车的时间里了。 旅客的吞吐量 = 接驳车车厢容量 x 接驳车旅客上车速度(车门宽度) —--------------------------- 至此,我们从逻辑上推演出了token经济学的硬件需求第一性原理: Token throughput = HBM size X HBM Bandwidth AI推理这个时代的最高KPI,实际上是高度依赖于HBM的两个维度的进步的 如果要维持token throuput每一代两倍的增长,实际上意味着,每一代的单GPU上,HBM size X HBM BW带宽之积要增长两倍! 这也是历史上第一次,HBM内存的size可以影响最高的KPI token throughput! 要验证这个理论,可以把Nvidia从A100到Rubin Ultra这几代的token 吞吐throughput,和HBM size X HBM BW 放在同一个图里比较 (见图二) 可以发现,这两个曲线的走势在对数轴上惊人的一致 HBM size x HBM带宽增长的甚至要比token吞吐量更快,毕竟HBM决定的是天花板,实际上这个天花板增长的利用率utilization是很难达到100%的,也就是说,HBM size x HBM 带宽就算增长1000倍,其他算力和架构的配合下,很难把这1000倍的天花板潜力全部榨干 这条曲线不是巧合,而是系统最优化的必然解 throughput = batch × Bandwidth,这就是token factory 经济学最绕不开的第一性原理 —-------- 软件的影响呢?软件的优化会不会降低带宽的需求?降低HBM的需求? 这跟硬件是独立两个维度的,这好像在问,如果CPU上的软件优化了之后跑的更快,是不是CPU就十年不用发展了?反正软件跑的更快了嘛 这样的话,CPU厂还能赚得到钱吗?CPU想要存活下去,只有一条路可走,在标准benchmark,不考虑软件优化,每一代CPU必须要跑分更高,不然就卖不出去 GPU也是一样,软件优化如何,和自己的token吞吐量KPI每年都要大幅进步,是两回事 只要token的需求继续增长,对token throuput的追求就绝不会停止,那么对HBM size X HBM 带宽的追求也不会停止 如果HBM size和HBM 带宽发展慢了,老黄一定会亲自到御三家逼着他们技术升级,因为这就是老黄gpu的天花板,天花板要是钉死了不进步,老黄的GPU还能卖出去吗? 当然了,Nvidia需要绞尽脑汁去从异构计算的架构角度榨取HBM天花板之外的部分,比如LPU就是一个很好的尝试,把Pareto frontier从另一个角度改善了很多 (右半边高token速度的部分) —-------------------------------------- HBM内存已然告别了那个随波逐流的旧时代,在这条由指数级需求铺就的单行道上,以一种近乎宿命的方式走到了产业史诗的主舞台中央 推理范式第一性原理演化到这一步,只要老黄还要卖GPU,HBM就必须翻倍,而且必须代代翻倍。这是supply side的内生压力,与AI需求无关,与宏观周期无关,与hyperscaler的心情也无关 剩下的问题,只有一个: 当需求被物理锁定为指数增长的时候,供给侧的三个玩家,会不会还像过去三十年那样,亲手把自己再拖回一次周期的泥潭?
显示更多
0
7
197
62
转发到社区
AI是人类最伟大的投资方向 -(原文来自格隆汇) 纵观人类文明史,本质上就是科技不断突破生理、环境、认知局限的进化史。 其中有一个规律从未被打破:谁抓住了时代的核心科技,谁就抓住了财富的密码。 而今天,智能时代的核心科技,就是算力。 算力的需求不会因经济周期、政策调整而减少,反而会随着智能化时代的推进持续不断提升需求总量。 这种“无上限、不可逆”的刚需,是任何传统行业都无法比拟的优势。 智能时代有三大最基础的要素——算力、电力、数据。 数据,是新时代的“原油”。 电力,是新时代的“血液” 算力需求不是一条向上的斜线,而是一条加速陡峭的曲线。 这些AI“卖铲人”卖出的是人类历史上最贵、最稀缺、也最不可或缺的“铲子”。 我们要跳出股市的短期博弈,多从人类文明进化、国家科技发展、行业技术迭代的角度,思考算力的价值,提升自身的格局视野。 算力作为智能时代核心基石的本质,有着“刚需不可逆、地位不可替、壁垒不可破、增长无上限”的底层逻辑,无疑让它能成为当下最伟大的投资方向之一。 投资算力,甚至不需要你相信任何一家公司、任何一个CEO、任何一条技术路线。 你只需要相信一件事: 人类对智能的渴望,是刻在基因里的本能。而算力,是一切智能的物理化身。 或许二十年后,人们回望2025—2030年,会说: 那是铁路时代的1860年代,那是电力时代的1900年代,那是互联网时代的1995年。 只是这一次,浪潮比任何一次都更确定、更汹涌、更不可阻挡。 面对如此令人激动的新时代和新世界, 你是拥抱?还是漠视?
显示更多
看到好多18年关注的kol,那时候风光无限,现在已然落寞。 以前确实币圈太简单了,现在都跟不上版本了。 这个时代的新人确实强,理解能力和进化的好快。 微笑的天赋打不了现在的lpl。必须要承认自己平庸了。少折腾
显示更多
0
52
189
2
转发到社区
听说你炒股比炒币还厉害?这 10 万美元你先拿好 全员股民,真的都去炒股了。AI 这么火爆,有人说,如果你的资金还不在 AI 就是对时代的大不敬!美股我们买起来很费劲,于是代币化股票几乎成了加密原生交易员的必备,所以各个交易所都在拼命发力。 小狐狸也来了,还送 10 万美金。 让我们浅入! ⬇️ 是的,是你熟悉的那个小狐狸 @metamask ,但是你可能也已经不再熟悉了,因为小狐狸的确变化非常大。一句话概括,它已经从单一的钱包进化到了链上个人金融平台。除了基础的钱包功能,现在已经具备了永续合约交易(跟 hyperliquid 合作)、预测市场(跟 Polymarket 合作),最近又新增了 RWA ,跟 Ondo Finance 合作。 先看活动。 为了让更多人在钱包里就能直接体验交易代币化美股,metamask 搞了一个 Ondo Global Markets 挑战赛,奖金共 10 万美金。这种交易所很多,大部分因为规则不太行导致不公平或直接被人薅羊毛,小狐狸这次规则,我研究了下感觉可以冲,具体原因如下: 靠收益率而不是利润 很多活动很愚蠢的,直接按利润发奖金,这就是典型谁有钱谁得奖啊,Metamask 直接按收益率 % 评选,无论你什么资金量级都有机会拿奖 资金量级也分组别 即便靠收益率评奖,但不同资金量也还是有影响的,再进一步,小狐狸根据不同资金量级分成了青铜、白银、铂金 3 个组别,最低 100 刀起步,每个组别各选出 5 个获奖者。 时间设置有巧思 因为收益率问题,很多人可以钻空子比如最后时刻进场,哈哈哈,有考量,规则里限定必须至少有 10 个交易日,可以不连续。总活动时间 33 天,5 月 14 日 ~ 6 月 18 日,这个时间要求还是很巧妙的。 活动以结束日的结果快照为准,奖金以代币化股票的形式发放,3 个组别也就是 15 人能拿到奖励,咱就是说,平日都说自己牛逼,现在给你机会证明了,不试试?参赛期间可以随时、随意调仓的,这你还不拿个第一名👀? 活动入口: / 写到这里发现一个小细节。这次活动的入口其实之前在 APP 里叫 Reward,之前里面都是积分,现在里面多了很多东西,比如这次交易大赛、收益奖励(有metamask card 哦)还有其他合作伙伴的激励等等。 也就是说,完整来看,Metamask 所谓的链上个人金融平台覆盖了「交易」、「赚取收益」、「投资」、「投机」以及「分散投资」,同时始终保持完全的自主托管。 一句话就可以说明白全新的 Metamask 到底要搞什么了。 祝我们好运! / 作者:anymose | 一个软核科普作家 本文仅做科普使用,不构成任何投资建议,永远记得 DYOR!
显示更多
0
11
18
0
转发到社区
投资机构Coatue预测:未来5年内存需求增长5倍! 💡AI发展的瓶颈正在转移:从卷算力到内存不足。 过去几年,AI = 算力 + GPU。 但当AI从“聊天机器人”进化为 “自主Agent”,故事已改变。 - 当前的聊天机器人:无状态,每次对话从零开始。 - 未来的Agent:拥有长期记忆、全天候运行、替你主动干活。 Agent和聊天机器人的本质区别:就是记忆🧠 📊 关键信息: - HBM = GPU上的工作内存 - DRAM = 桌上的便签本 - 长期存储 = 地下室的文件柜 三者必须在毫秒级协同,Agent才能真正“自主”。 Coatue预测:未来5年内存需求增长5倍。 英伟达路线图也显示:单GPU内存7年增长10倍。 总而言之,没有内存层,就无法迎来独立自主的Agent时代。
显示更多