搜尋 GTC 相關推文 — 推特瀏覽器

ウレ@lruhn209191655

2026.05.12 09:27

@GtCrPLf9Ha38877 @KenichiTsuda4 极端分子哪里都有啊，不能把极端个例上升到群体。日本也有面对外国人菜单不一样的价钱，有在日本的中国大使馆进行野蛮行为，以及街上对说中文的人实行暴力之类的，谁在乎这些极端种族主义，我只知道我有很多喜欢的日本作品和文化希望大家不再关注这些负面的新闻早日实现中日和平

0

1

0

轉發到社區

杰克船长宏观策略@macrotradecn

2026.03.17 04:05

GTC……科技圈的招商策略会😅

0

3

9

0

轉發到社區

杰克船长宏观策略@macrotradecn

2026.03.17 01:57

GTC说PCB超预期……原来是下跌

0

2

24

2

轉發到社區

fin@fi56622380

2026.03.10 04:59

GTC 2026 preview：从Groq生态位看AI异构推理(Heterogeneous Inference)新时代 Groq的SRAM路线的生态位在哪里？SRAM会不会替代HBM路线？ Nvidia如何整合groq到现有的产品线？是技术整合还是产品线整合？收购之后会给groq LPU产品带来怎样的升级？这里尝试从基本原理出发去拼凑一个逻辑链 —-------------------------------------------- 先从first principal说说groq的设计哲学开始：groq本质上是一个compiler first走到极致的路线而不是SRAM first路线，SRAM路线只是副产品相对于CPU针对通用workload的设计不同，AI 推理workload的特征在于确定性(deterministic)更高，基本没有data-dependent branching，tensor shape固定，memory access pattern确定当Groq带着这个新特征重新审视 hardware-software interface，去问"什么应该在编译时做，什么应该在运行时做"。对于 AI 推理这个 workload，答案是：几乎一切都可以在编译时做这就是Groq最疯狂而独特的地方：完全确定性编译器（fully deterministic compiler），compile精确到每个时钟周期，完全精确带来极致的效率。在编译的时候就需要考虑到硬件在运行的每个时刻的所有状态，扮演一个全知全能的上帝，就可以避免硬件资源的浪费，而要做到这一点，必须要做到极致的确定性，也就是说，LPU里每一个计算，访问存储，通信的延迟，都需要精确到clock cycle，这对compiler来说是非常复杂的 AI workload更高的确定性，以及groq的完全确定性编译器优先路线很自然的避免了VLIW的弱点(内存行为以及branch行为不可预测)，放大了VLIW的优点。那么下一步要提高效率和并行度，VLIW 式的编码格式就是一个自然推论—既然编译器要控制每个功能单元每个 cycle 做什么，那指令格式当然就是一个宽指令里打包多个指令会得到更高效率，这就是 VLIW 在groq的芯片里，不做乱序执行/speculation，大幅简化硬件(instruction dispatch仅占<3%面积)，把复杂度移到静态compiler上，这正是VLIW思想的精髓既然要让编译器做确定性的 cycle-accurate 调度，那么硬件里所有不确定的因素都要消除，比如arbiter，crossbar, replay，这些有自主算法在运行时决策的部分都砍掉 memory latency 也必须是确定的，所以一切 cache 和 DRAM都是要砍掉的，cache也要换成scratchpad SRAM，因为cache replacement 策略是runtime决策的，不确定，必须换成软件控制的scratchpad，地址映射完全由compiler控制，保证确定性通信也必须精确到cycle，发送和接收指令就是软件协调好执行的时刻,并没有传统的“我要发一个包给你，请分配好内存”这类操作，而是同步地根据一份时间表严格执行SRAM 的分配和收发操作，这个时间表是compiler已经决定好的，硬件只需要执行就行了完全确定性compiler也带来了芯片节点之间互联通信overhead的极低延迟，这可能是groq确定性架构最被忽视的最大优势，毕竟传统互联架构里Packet Routing、Arbiter Contention 和 Buffer Queuing，这些是延迟波动的重灾区这就是为什么说，groq其实并不是一个native SRAM first的技术路线，也不完全算是VLIW first的技术路线，而是compiler first的技术路线，更准确的说，完全确定性compiler是整个groq架构的核心只是因为确定性compiler的原因，所以在核心decode阶段无法使用HBM/DRAM带来的不确定性，SRAM only成为了必然的选择。这也是为什么说Groq更像是compiler first路线。 —-------------------------------------------- groq被收购之后最直觉的第一反应： groq确定性compiler技术路线有没有可能用在Nvidia现在的GPU+HBM体系上？不能原因有两个： 1. HBM/DRAM的物理特性和带宽优化决定了它天生带有不可预测的延迟，无法和deterministic compiler兼容 2. Nvidia的SIMT路线和Groq的VLIW/compiler first的哲学本质是有冲突的 DRAM为什么充满了不确定性 1.refresh操作每隔一段时间tREFI就会刷新一次cell上的电量，阻断bank访问，这是由DRAM cell物理特性决定的。而这个操作会随着温度的变化，refresh的频率也会变化 2. 为了最大化利用DRAM带宽，controller会做很多优化，最典型的是batch scheduling：把同一个page的traffic都放在一起减少page miss，同时让读写尽可能接触更多的bank，以及尽可能减少read和write switching 这些动态优化都是real time发生的，基本不具备可预测性 3. system上对DRAM的优化，比如bank address hashing，让compiler静态提前定位某段data难度太大，落实cycle确定性的复杂度太高其实这些不确定性也是能解决的，代价就是放弃大部分的优化策略，大幅降低DRAM的efficiency和利用率。groq自己其实也对这方面做过探索，他们曾经做过一个确定性DRAM的专利，但工程上的实现是不现实的，这也是groq选择SRAM-only的核心原因之一。所以确定性compiler技术路线用在DRAM上不是一个yes or no的问题，而是这不是一个好的选择，因为这意味着HBM的efficiency和BW都要大打折扣，而且是结构性无法避免的损失。这几乎意味着要用compiler去重写一个完整的memory controller，因为确定性dram本质上是compiler software defined memory controller，这个SW controller会非常难做，复杂度极高，而且每一代memory迭代都要大幅更新compiler里的结构，在工程资源上是不现实的。而且每一代DRAM，每一家DRAM 供货商都需要调试，这在验证和validation上是一个nightmare --------- 为什么Nvidia的SIMT路线和Groq的VLIW/compiler first的哲学本质是有冲突的这两套体系对同一个问题给出了相反的回答：运行时的不确定性，Groq是compiler阶段直接消灭所有不确定性，Nvidia选择了用warp switching去隐藏不可预测的延迟 Nvidia GPU 建立在 SIMT（单指令多线程）和硬件层线程调度器（Warp Scheduler）上。当一个warp因为访存而stall的时候，硬件warp scheduler立刻切换到另一个ready的warp继续执行，把stall的延迟藏在其他warp的计算里。这整套机制的前提恰恰是：延迟是不可预测的，所以需要足够多的并发线程来统计性地填满pipeline 如果要用确定性的编译器去接管，等于把 Nvidia GPU 里面最核心的硬件调度单元全盘废弃：如果你不需要多warp轮转，你也不需要那么大的register file 实际在历史上，AMD从TeraScale（VLIW）到GCN（scalar SIMT）的架构转型，正是GPU领域一次大规模的VLIW→SIMT迁移：当workload变得不够可预测时，VLIW的compiler负担太重，应该把调度权还给硬件所以在原架构上引入确定性compiler应用到Nvidia现有的技术路线，是很难融合。这不是compiler能不能改的问题，是两套架构从第一性原理上就走了相反的方向。所以说，Groq在Nvidia的唯一出路，就是独立的面向low latency decode的专用产品。 —-------------------------------------------- Nvidia收购Groq之后，就引出了第二个问题： Nvidia会给Groq带来什么样的新提升？那么首先看看groq的瓶颈在哪里，简单的说 1. SRAM容量太小，无法容下大模型的参数量+kv cache 2. 推理decode主要瓶颈不在SRAM 80T/s的速度而在于interconnect延迟(占80%) 3. 对于Prefill这样的compute bound task速度较慢 groq的主要架构基本上是17~18年就完成了，那是CNN的时代，架构也是以CNN/LSTM为主要的target，当时测试benchmark都是ResNet50，SRAM容量是绰绰有余的但是进入LLM时代，单个TSP计算卡230MB SRAM就显得不够看了，一个LLAMA 70B模型的参数量占内存就相当于3000个ResNet50，再加上因为上下文long context日益膨胀的KV cache，scale out就成了唯一的出路于是一个70B模型的推理就需要576卡的集群，采用16个Pipeline并行（PP）和36个tensor 并行（TP），80层的大模型切成16级流水pipeline串行，每级横向5层MLP分给36个卡并行推理 16级流水pipeline串行（PP），每级流水到下级流水的通信overhead延迟就要 X16。实测中PP和TP之间的通信延迟占据了80%以上的总延迟，特别是PP延迟，占据了50%以上的总延迟，通信延迟成为了主要瓶颈 Groq计算卡对decode阶段的memory bound很友好，但是片上巨大的SRAM也挤压了compute的面积，导致prefill阶段耗时很高。融入Nvidia产品线之后，Groq产品完全可以扬长避短，只做自己擅长的decode部分，避免prefill阶段的短板 Nvidia带来的最重要的提升，可能是通过工艺的提升，以及hybrid bonding技术(类似AMD 3D V-Cache)，扩大Groq LPU SRAM的容量，比如光是14nm到3nm的工艺提升，SRAM就能从230MB扩大到500MB，如果以后引入3D SRAM，容量还能翻倍 SRAM变大之后，原来576个LPU能完成的70B模型推理，现在只需要256个LPU了。猜测也许可以用32个tensor并行 X 8 个流水pipeline串行，pipeline interconnect延迟能直接减半。所以Nvidia能带来的主要提升可能是，通过扩大SRAM的容量，减少scale out卡数，从而减少通信延迟时间，提高token速度 —-------------------------------------------- Groq的SRAM路线专用产品进入Nvidia产品线，引出了第三个问题： SRAM路线会颠覆HBM路线吗？不会。 SRAM路线本质上是用十倍的成本换几倍的速度，只能适用于一部分愿意为低延迟付出高额溢价的市场。AI硬件市场的主旋律仍然是比拼TCO(total cost ownership)成本做一个简单的成本核算就清楚了以LLAMA 70B模型为例，算上KV cache，Groq需要576张计算卡组成集群。Groq计算卡零售价大约是每颗2万美元(groq CEO说实际售价远低于，那就按2000美元算)，576卡就是超过110万美元的硬件成本。而2张H100就能跑同样的模型，成本不到10万美元。成本差距是一个数量级。 Groq于是转而卖token服务，Groq的API定价确实便宜，但这是因为两个原因叠加：第一，Nvidia的GPU云服务商通常在硬件成本上加倍的margin卖出去；第二，Groq自己是在亏钱运营的。2025年全年，Groq用LPU做大模型推理、对外卖API的业务，营收大约4000万美元，成本却是6000万美元，毛利-50%。Groq的便宜token价格不是因为SRAM的经济性更好，而是因为VC在补贴。那么有人愿意为速度付溢价吗？有。 Claude Opus 4.6 Fast模式就是一个很好的市场信号：输出速度提升2.5倍，定价直接从$5/$25涨到$30/$150 per million tokens，6倍的价格，估计是牺牲了batch带来的速度提升。所以这部分市场是真实存在的，SRAM路线在这里有它的生态位。但这个生态位有多大？要看ML workload的分类。不同的workload对硬件的侧重点要求差距巨大：推理的Prefill阶段对带宽要求低但算力要求高，推理decode阶段则是反过来。R&R(Ranking & Recommendation)对算力和带宽要求都不高但对存储的容量要求巨高（见附图）对延迟敏感的推理workload，decode阶段对Memory bandwidth要求高，是SRAM路线的优势领域（图中红色线），主要是real time/interactive LLM：chat、copilot、agent这类需要实时响应的场景。特别是reasoning model，SRAM路线带来的极致体验是很夸张的：H100要两三分钟跑完一reasoning，cerebras十秒就搞定了这部分注重极致推理速度的市场有多大，我暂时没有找到一个详尽的调研，看到一个Hyperscaler的说法目前是10%左右但是agentic flow workload，常用的agentic框架做profiling，比如SWE-Agent, LangChain, Toolformer，CPU最长可以占到90%的E2E端到端延迟，throughput瓶颈也更多的卡在CPU, 这些加起来通常远大于单次decode的延迟，SRAM路线速度优势被削弱。而更大体量的workload：batch inference、offline processing、ranking、recommendation对延迟没有那么敏感，throughput和cost per token才是唯一的指标。这部分市场SRAM路线完全没有成本上的竞争力 H100/B200相当于大巴车，装的人多(batch processing)，每个人的车票钱很便宜，但是慢悠悠。 Groq/cerebras相当于是法拉利，极致的速度体验，但是装的人少，人均票价是大巴车十倍甚至以上。长期来看，SRAM的成本劣势是结构性的，不会随时间收敛。6T SRAM cell天然比1T1C DRAM cell贵，这是物理决定的，和工艺无关。而且SRAM scaling已经慢了下来，从N5到N3E，SRAM单元面积几乎没有缩小即便是速度优势，SRAM路线的缺陷在于访问速度已经接近工艺极限，很难跨代提升。特别是HBM的速度每代都在指数上升的情况下，SRAM 80T/s的速度优势很难长久维持。十年前这个路线刚刚兴起的时候，SRAM速度比HBM快了两个数量级简直是降维打击，但现在的速度差已经不到一个数量级(Rubin HBM4 22TB/s)，再过十年，两者的速度可能拉不开差距了。所以结论很清楚：SRAM不会颠覆HBM，但它在低延迟、低batch、实时推理这个细分市场里有不可替代的价值。但长远来看，随着HBM速度指数上升的背景下，SRAM优势也会逐渐慢慢越小。 —-------------------------------------------- 写到这里，也许我们可以把这些碎片拼凑出Nvidia收购Groq之后计划的下一步雏形：异构推理的新时代开启了以后的推理workload本身已经分化，无法再用单一架构的最优点覆盖，体系结构最重要的是tradeoff，是尺度范围。一个架构形态在合理的tradeoff以及特定workload下可能惊为天人，用多个架构形态去迎合不同种类的workload，就是异构计算的思想 2026 GTC的最大主题，就是异构推理的系统化。推理不会由单一硬件统一完成，而会被拆成几个部分：控制和调度/agent runtime层交给Vera CPU 针对long context的prefill交给CPX (Content Phase aXcelerator，一个专门为prefill的compute bound特性设计的计算模块) 小模型/低延迟/low batch decode交给SRAM路线的Groq LPU，256块LPU集群高吞吐/高并发batch decode，HBM GPU仍然是主力以及可能会被忽略的ICMS：inference context memory storage, kv cache已经是核心基础设施，以前的异构更多是计算异构，现在的异构已然延申到了缓存异构memory hierachy heterogenity(似乎改名成了CMX: context memory storage) LPU和GPU的分工，更可能成为 inference stack 里两个不同的tier，小模型/低延迟/low batch都交给LPU，长context/high batch交给HBM GPU 目前CPX什么方式和LPU/GPU连接还尚不清楚，整个工作流程大概是，CPU做控制和调度，CPX Prefill 跑完得到几十 GB 的 KV Cache，分配到 Groq LPU阵列SRAM，或者分配到HBM GPU，开启Decode流程其实还有一种更大胆的猜想：如果引入speculative decoding，那么LPU完全可以跑通常尺寸较小的草稿模型，在LPU上速度极快，HBM GPU作为主力去验证草稿模型即可，这样的异构推理结构，可以让token rate大大加速，在某些场景下翻倍也是没问题的（比如代码任务模式固定，小模型很容易猜对语法，所以加速效果很好）当 Nvidia 的眼光越过GPU，走向整个 Agentic 流程的系统级优化时，追赶它的难度已经不在一个单一维度了。以前 Nvidia 步子迈得大，靠的是 GPU 架构和参数的单点暴力跃升；而现在，随着CPX，LPU，ICMS加入异构推理，它是从“数据中心即一台计算系统”的系统视角出发，从Agentic flow的角度做底层的异构编排。无论是系统的复杂度，还是软件栈的工作量(Dynamo/ICMS/CMX)，Nvidia 迈出的这一大步，直接把竞争门槛从“做出一颗好芯片”拉高到了“定义一整套异构系统来做普适加速计算解决方案“ —------------------------------------------------------- 不由得感慨，每一次计算范式的改变，半导体都会带来一波新的startup热潮，但当软件/应用形态逐渐收敛，最后还是变成了大厂通过收购把功能做大做全，参数做的更高，系统深度整合的更好更全面，成本更低，功耗和跑分更优秀，让startup慢慢失去独立生存的空间比如移动互联网时代早期，也是群雄并起，有做AP应用处理器，独立基带芯片的，ISP的，GPU的各种小公司。但最后的赢家，都是从到后来把GPU，ISP，modem全都做进SoC，并且完成系统级整合的异构计算平台。苹果收购PA semi的CPU，英飞凌的modem，掏空Imagination的GPU；高通收购ATI的mGPU，Atheros的Wifi，Nuvia的CPU，CSR的蓝牙/DSP，都是典型例子异构推理的复杂度越来越高，能做系统级整合的公司会更有优势，这和移动SoC时代的逻辑一模一样。AI时代nvidia收购arm(失败)，收购Mellanox，收购groq，只是这个新历史轮回的开始

0

31

292

78

轉發到社區

硅谷101陈茜（Qian Chen ）@Valley101_Qian

2026.03.21 01:33

我们在2026 GTC期间办了场聚会，请大家来吃吃喝喝聊聊天，顺便现场录了个播客，聊聊黄仁勋的万亿新野心，token经济学，AI和GPU的下一步，还有业界的小八卦哈哈。正式节目大家等我们的播客上线咯～ 🌹 #硅谷101#

0

9

163

9

轉發到社區

AI Will@FinanceYF5

2026.03.18 06:47

🧵Thread: 在NVIDIA GTC遇到了OpenClaw创始人Peter 1/ 一个把Claude、Meta、OpenAI同时卷进来的独立开发者一个人干翻了硅谷对"AI Agent该长什么样"的定义聊了20分钟，记录几个让我印象深刻的细节 👇

0

19

73

6

轉發到社區

Rocky@Rocky_Bitcoin

2026.03.17 15:20

投资笔记：2026 GTC 大会深度复盘与利好标的分析！看完整场英伟达2026 GTC大会，还是蛮让人震撼的。黄老板如今给大家反复重新灌输一个新认知，未来 #AI# 比拼的不再是大模型，而是 Token工厂。尤其是这次Openclaw🦞爆火以后，大家逐渐认识到，Token消耗带来的巨大收入，未来将成为AI企业的核心支柱。现在仅仅一个小龙虾🦞，以后可能出来小熊猫🐼，小仓鼠🐹，等等类似的成百上千个Agent，推理爆炸的年代已经来临，可预期的未来3-5年，Token消耗量将实现1000—10000倍的增长，而持续的计算调用服务，将带来可持续性的Token消耗。假如说目前软件公司因为AI Agent而走向终结，过去的SaaS收订阅费模式，成为历史。那么AI时代，AaaS模式将成为未来，收 Token费将带来更暴利的企业收入，而且壁垒更高，一旦选用一家模型，持续的喂养和消耗的Token，本质是独立主体性的数据积累和自我成长，此刻专属你的Agent如同婴儿长大一样，不到万不得已，很难去推倒重新再养。此处到最后比拼的是各家巨头们的GPU算力，同时也是电力和数据中心的较量，而未来每一处数据中心便是一个收费单元。假如理解了这套黄老板灌输的新逻辑，那么今年各家巨头6000多亿的资本开支预算，也就make sense了，毕竟现在投的越多，当下建设的每一座数据中心，都将成为未来源源不断的Token印钞机啊，抢GPU，抢电力，抢工期，抢内存芯片，貌似一切都合理化了！所以接下来，我们讲讲其中利好的美股标的👇 1️⃣“铜光共存”：连接器的黄金十年黄仁勋这次大会上给了坚定的定调，「机柜内用铜，机柜外用光」。之前市场上传闻此次英伟达的新架构，会让“铜进光退”，市场十分担忧，而本次定调，基本一扫光模块板块的阴霾。目前发展方向上，机柜内部为了物理极限的成本和能效，依然死磕铜缆；但随着 Spectrum X CPO(共封装光学)交换机的全面量产，光通信的爆发点已经从“模块”转向了“集成”，直接可集成整合到ASIC，克服大规模AI数据中心电子信号的限制，实现更高效率的传输。而英伟达与台积电在 CPO 上的合作，会让这些光路检测和激光器组件公司持续受益。利好标的： 🟡#AAOI（Applied# Optoelectronics），这家公司把光芯片和器件组装成“能用的光模块”，卖给数据中心。类比就像👉 富士康，把零部件整合成一部可以卖的iPhone。 🔵 #LITE（Lumentum），这家公司主要生产“让光跑起来”的核心器件（激光器、调制器）。# 类比就像👉 苹果iPhone中的A系列芯片，决定性能上限的关键部件。 🟢#AXTI（AXT# Inc），这家公司提供制造光芯片所需的底层材料（InP、GaAs衬底）类比就像👉 卖稀土或者硅晶圆的，虽然叙事不性感，但所有高科技(光模块)都离不开。 🟣 #TSEM（Tower# Semiconductor），这家公司帮别人代工制造光子/模拟/射频芯片的“特色晶圆厂”。类比就像👉造各纳米型号芯片的台积电（但专做小众高技术工艺的版本）。 2️⃣Rubin 架构与“存储大年”：HBM4 是胜负手 Rubin 架构不仅仅是制程提升，它最大的改变是引入了 HBM4 和 100% 液冷。这次黄仁勋提到 HBM4 产能将决定Rubin产线的放量速度，相当于直接把存储芯片从“周期股”推向了「基础型AI 消耗品」的逻辑。难怪前不久，黄老板一直在韩国晃悠，毕竟三星和海力士，是内存芯片的绝对话事人。与此同时，移除电缆、100% 液冷意味着数据中心的基础设施也要实现大换血。其中相关做液冷冷却相关的公司也将会直接受益，这个我们在之前的推文中，多次强调过，其中个别股票推荐后，已经涨幅高达50%以上。利好标的：存储领域： 🟢 #MU# (Micron Technology)，这家公司我们在150美金左右多次推荐过，做DRAM + NAND的全能型选手，AI内存HBM正在补位追赶。类比就像👉 “美国版三星”，但体量更小、节奏更慢一点。 🟡 #SNDK# (SanDisk)，这家公司我们也多次推荐，专注NAND闪存（SSD、存储卡），偏消费和存储设备端。类比就像👉 “存储界的西部数据”，专门卖硬盘和SSD的那一类，基本不碰高端DRAM战场。 🔵 三星(Samsung Electronics)，毋庸置疑的全球内存霸主，DRAM + NAND + HBM全线覆盖，技术和产能双王。类比就像👉 “内存界的台积电 + 苹果合体”，既能做最强技术，又能大规模出货。 🟣 海力士(SK Hynix)，目前是HBM（AI高带宽内存）绝对王者，吃到了AI最肥的一块肉。类比就像👉 “AI时代的英伟达供应链核心王牌”，专门给AI GPU喂粮的。由于美股账户买不到韩国股票，所以我推荐这只美股ETF，韩国ETF(代码：#EWY#)，这只ETF基金持仓中22.46%为三星，19.39%为海力士，其他持仓也都是一些韩国优秀企业，比如现代汽车等。液冷冷却： 🟤#VRT# (Vertiv Holdings)，这家公司专门给数据中心提供“供电 + 散热 +基础设施”的一整套解决方案，尤其是AI数据中心。类比就像👉 “数据中心的空调 + 电力系统总包商”，虽然不做算力，但决定算力能不能正常运转。 3️⃣OpenClaw 与 Token 薪酬：AI 时代的“Windows” 这是最让我震撼的一点。黄仁勋将 OpenClaw 定位为 Agent 计算机的操作系统，这定位超越了现有互联网时代下系统与软件的逻辑边界。意味着未来我们可能不存在软件app的概念，而要开始逐渐熟悉去雇佣一个个Agent。 “你的 Offer 里带多少 Token？”这句话揭示了未来算力即财富的本质。当算力成本降低，通过 Rubin + Groq 3 LPX 的能效提升，AI 代理的普及将带来新一轮AI云服务的爆发。利好标的： 🟢#IREN#(Iris Energy)，这家公司本身是BTC挖矿公司，之后开始凭借自身低成本电力 + 数据中心，把矿场升级成AI算力租赁平台（GPU云）类比就像👉“把比特币矿场改造成AWS算力出租工厂”。 🟡 #CIFR#(Core Scientific)，这家公司刚从破产边缘爬回来，转型做“托管+AI算力”的矿场运营商类比就像👉 “从煤矿老板转型做数据中心房东，还帮人管服务器”。 🔵 #NBIS#(Nebius Group)，这家公司做纯正的AI云平台（GPU云 + AI服务），不是矿企出身，更像技术驱动。类比就像👉 “AI版的AWS 或CoreWeave（更偏技术派）” 4️⃣空间计算与 Feynman 架构：剑指星辰大海下一代Feynman 架构的 3D 堆叠和“太空芯片”计划，说明英伟达的眼光已经不在地球。这或许不是噱头，因为每次黄老板都把吹过的牛逼，给实现了。这次太空芯片计划更像是边缘计算的极限延伸。在高辐射、极端的太空环境下运行 AI，对芯片可靠性和卫星链路提出了极高要求。利好标的： 🟢 #RKLB#(Rocket Lab USA)，这家公司提供“小型火箭发射 + 卫星制造 + 太空服务”的一体化公司。类比就像👉 “太空版的顺丰 + 富士康”，既能送货（发射），也能造卫星。 🟣 #ASTS#(AST SpaceMobile)，这家公司用卫星直接给手机提供4G/5G信号，且不需要地面基站。类比就像👉 “太空版的中国移动”，直接从天上给你信号。上述👆，便是此次我们总结的GTC大会利好标的，有完善补充的地方，可以评论区，一起交流探讨！🧐 目前上述提及的公司在 #MSX# 上面基本都有，炒美股，我选择用 #RWA# 美股代币化平台 #MSX，一同投资参与美股市场：# 早期美股投资粉丝和伙伴，可以私信我，填写表单后，可免费进入美股交流和探讨社群(目前每周仅限定10人，助理审核，可能需要一点时间，感恩🙏)！

0

12

124

48

轉發到社區

杰克船长宏观策略@macrotradecn

2026.03.17 05:57

英伟达GTC，也称老登庆功宴

0

2

29

0

轉發到社區

杰克船长宏观策略@macrotradecn

2026.03.17 00:51

黄仁勋刚刚表示：本次GTC大会的参会者中，金融服务行业从业者占比最高。我知道，我希望是开发人员而不是交易员。

0

2

20

0

轉發到社區

qinbafrank@qinbafrank

2026.03.16 23:27

英伟达老黄在GTC大会上都说了什么？看了下演讲全文，感觉这次老黄不只是在卖芯片，而是在卖一个全新世界观：AI 不是工具，不是应用，而是人类下一个工业革命的能源+发动机。AI 是新时代的电力 + 发动机，Token工厂、AI代理智能体、物理AI 共同构成基础设施。梳理下要点： 1. 第一性原理：AI 的本质重新定义（别再当它是“聪明App”了）老黄认为 1）AI 不是单一模型突破，也不是“会聊天”的玩具，而是像电力一样的核心基础设施。 2）每个公司都会用，每个国家都会建，不建就落后，就像19世纪不建电厂一样。 2）计算需求过去两年已增长“一百万倍”，且还在指数级加速。老黄更是给了一个炸裂的前瞻指引，预计到2027年，仅英伟达这些旗舰芯片（Blackwell + Vera Rubin 系列）就能贡献至少1万亿美元营收。”（比之前市场预期的5000亿翻倍，时间拉长一年但金额更狠）这已经不是简单的财报指引，是给全球CEO和国家元首的最后通牒：你们不投AI工厂，我们就帮别人建。 2. Token工厂：数据中心的新物种老黄把数据中心彻底改名——不再是存数据的仓库，而是生产智能代币的工厂。CEO 现在要像管传统工厂一样管“代币产出率”和“单位代币成本”。英伟达通过全栈垂直整合，已经把单位代币成本做到全球最低。这就是工业化拐点：AI 从实验室玩具 → 国家级重资产基础设施。投资视角来看，这会让“AI基建”概念彻底主流化，能源、冷却、网络、光模块、液冷、变压器等全产业链都会被重估。别只盯着GPU，看“Token工厂”全链条。 3. Vera Rubin 平台：下一代AI工厂的完整蓝图 Rubin不是单颗芯片，是垂直整合的7大芯片 + 5个机架级系统 + 1个超级计算机*。他的亮亮点在于： 1）Vera CPU（专为Agent优化）、全液冷、Groq确定性流式推理 + Dynamo解耦、吉瓦级工厂代币生成速度提升350倍。 2）大规模光电共封装（CPO）、硅光子，目标百万卡集群、低功耗低延迟。老黄原话这么说：“Vera Rubin 不是芯片，而是一个巨型系统，从能源到端到端全优化。” 这其实在告诉对手和客户：英伟达已经把“AI发电厂”的参考设计做出来了，你们直接抄作业就行（当然得用我们的零件😎） 4. Agentic AI + OpenClaw：下一个十年的操作系统级革命 OpenClaw在这次GTC上被老黄定义为“AI时代的Linux”——开源、底层框架，让Agent自主调用工具、写代码、管理文件。老黄宣布NewClaw企业版平台，现场“极简养虾”demo（一键让AI代理管复杂养殖流程），象征极简部署 + 自主执行。老黄更是明确说，今天世界上每一家公司都必须制定OpenClaw策略。同时推Nemotron开放模型联盟（语言、视觉、机器人、生物、气候等全覆盖），开放生态才是王道。这是在逼所有企业从SaaS转向AaaS（Agent as a Service），代理框架、工具链、隐私护栏相关公司会爆。开源+企业级双轮驱动，类似于当年Android的打法。 5. Physical AI + 机器人：从数字到物理的ChatGPT时刻老黄认为物理AI迎来爆发：不再是屏幕里的智能，而是能真正作用于现实世界。他聊到Robotaxi Ready新增比亚迪、现代、吉利等，覆盖1800万辆/年 + Uber大规模部署。现场迪士尼Olaf雪宝机器人直接登台，展示Omniverse数字孪生 + Newton物理引擎，从虚拟直接迁移到物理适应。老黄说机器人会成为数万亿美元市场，而物理AI是下一个大爆炸的领域。当然我们自己也需要清楚，物理世界落地比数字难100倍，但一旦起飞，体量远超纯软件。关注端到端（感知-决策-执行）全链公司。 6. 更远的下一代 + 未来场景（Feynman + 太空） 1）预告Feynman架构：Rosa CPU、LP40 LPU（推理专用）、BlueField-5、CX10网络等。 2）太空数据中心：Vera Rubin Space-1轨道AI计算机，用Omniverse建“数字孪生”太空基建。这一次老黄呼应了老马，英伟达不只是地球算力霸主，还想做太空AI基础设施。老黄这次演讲核心就是 AI 是新时代的电力 + 发动机，Token工厂、AI代理智能体、物理AI 共同构成基础设施。英伟达提供从能源到芯片的全栈钥匙，这个市场到2027年带给英伟达至少万亿美元营收。

0

20

293

86

轉發到社區