搜尋 Stitching 相關推文

2026.05.09 10:56

之前做LLM推理芯片架构探索的时候，我把四大AI推理ASIC公司的架构都翻过一遍。Groq、SambaNova、Tenstorrent、Cerebras。前三家的思路虽然各有侧重，但底层逻辑都在同一个框架里：片上大SRAM + dataflow架构 + 确定性调度，核心差异在NoC拓扑、内存层级、编译器抽象这些维度上展开。 Cerebras是里面让我真正被震惊到的一家，而它却这四家里马上第一个拿到IPO结果的。这家公司的选择比其他三家都激进一个量级：不做芯片，直接做整片wafer。单颗WSE-3，21.5cm × 21.5cm的整片晶圆，90万个PE通过scribe-line stitching在物理上连成一片连续的silicon。这个工艺是Cerebras和TSMC联合定制的，把原本用于晶圆切割的窄条改造成跨reticle的金属导线，让所有reticle在物理上拼接成一整块芯片。（配图二展示了单颗WSE-3内部结构：左半边是整片晶圆的reticle网格和scribe-line拼接，右半边放大了单个PE的微架构。）单个PE的结构极简：8-wide FP16 SIMD计算核，48KB本地SRAM直连，没有cache层级，所有数据访问都是确定性的单周期。加上一个5端口路由器（N/S/E/W + loopback），相邻PE之间的通信延迟也是单周期。关键在于，跨reticle边界的mesh在物理参数上和reticle内部完全一致，编译器和runtime完全不需要感知reticle边界的存在。从LLM推理的视角看，这个均匀性的价值非常大。 LLM推理的瓶颈在decode阶段。每生成一个token，模型权重要被完整读取一次，计算量却很小，典型的memory-bound场景。GPU集群在这个环节的核心问题是数据搬运：HBM带宽有限，多卡之间还要经过NVLink → NVSwitch → InfiniBand → Ethernet四层互联，每一层带宽和延迟都差几个量级，编程模型必须显式处理每一层的拓扑边界。 Cerebras的做法完全绕开了这个问题。单片wafer内部fabric带宽27 PB/s，权重从外部的MemoryX存储集群通过SwarmX流入wafer后，在PE之间按数据流模式传播执行，同一套placement和routing算法跑遍整片wafer。（配图一展示了这个系统级架构：MemoryX参数存储集群到SwarmX互联fabric，再到底层最多2048台CS-3节点，权重广播和梯度规约的数据流方向一目了然。） 90万个PE各自带48KB SRAM，合计约42GB片上存储，每个PE对自己本地SRAM的访问是单周期确定性的，PE间通信每跳single-cycle，延迟和曼哈顿距离成正比。对于推理场景，前提是weight streaming的编译器能把权重有效地分配到对应的PE上，这42GB分布式片上SRAM的聚合带宽远超GPU的HBM方案，没有cache层级带来的访问不确定性，没有跨芯片搬运的开销。回到我自己的体感。做推理芯片架构的时候，NoC拓扑和内存层级的权衡花了大量精力，因为芯片边界是硬约束，跨芯片通信的成本和片内通信之间永远存在断层。Cerebras的做法等于从片内通信的角度消除了这个断层，代价是整条制造和封装链都要重新定义。这也解释了Cerebras的工程取舍。所有架构创新集中在wafer内部，scale-out方向直接复用100GbE + RoCE的以太网生态。wafer内27 PB/s对比跨CS-3的SwarmX在Tbps量级，几个数量级的差距全部交给商品化网络承担。推理场景下单wafer内部的带宽和延迟优势可以直接转化成token生成速度。 OpenAI选择和Cerebras合作做推理，从架构层面看逻辑是通的。大规模在线推理需要低延迟、高吞吐、确定性时延，这三点恰好是wafer-scale架构在片上通信均匀性方面的结构性优势。但这套架构也有几个结构性的问题值得正视。良率和成本是绕不开的。整片wafer做单颗芯片，任何一个reticle的缺陷都影响整体。Cerebras靠冗余PE和路由绕行来应对，但冗余比例和良率数据从未公开过。一片wafer的制造成本本身就远高于切割后卖单颗die的模式，叠加23kW、15U的单系统功耗和体积，部署密度和TCO在大规模推理集群的经济性上面临考验。最关键的是KV cache的容量瓶颈。42GB片上SRAM看起来很大，但长上下文推理场景下KV cache随序列长度线性增长。以Llama 70B为参考，FP16下128K上下文的KV cache就要吃掉约40GB，即使做KV cache量化，长序列场景下的容量压力仍然显著。片上放不下的部分必须依赖MemoryX做外部存储，数据要经过SwarmX回传，这条路径的带宽在Tbps量级，和wafer内部27 PB/s的差距意味着长序列场景下decode速度会被外部带宽卡住。这可能是Cerebras在推理场景面临的最核心的架构约束。

0

45

270

47

轉發到社區

rick awsb ($people, $people)@rickawsb

2026.04.18 18:45

AI芯片的scale up，底层=物理的限制是reticle：光刻机一次只能曝光一个固定大小的区域，上限大约在800mm²左右。这决定了目前单颗芯片的尺寸的硬天花板。行业突破这个限制的难度非常大，接近物理极限，因为光刻的面积和精度往往不能两全（镜头等设备限制），所以只能绕开它。早期是大GPU，但这样做成本和良率都会变得很差。后来逐渐转向另外两条路径：一种是把系统做大，用一块更大的“硅底板”interposer把多个芯片拼在一起；另一种是把芯片拆小，再通过高速连接重新组合。 interposer本质上不做计算，只负责连接。GPU、HBM这些芯片放在上面，通过更细、更密、更短的连线实现高带宽数据交换。AI算力之所以能上一个台阶，很大程度上不是因为算得更快，而是数据在不同芯片之间移动得更快。但interposer本身也会超过reticle的尺寸，这时候就需要用到stitching。做法就像拼瓷砖：一块一块曝光，然后精确对齐，拼成一个整体。难点在于精度控制，边界一旦对不齐，连线就会出问题。这种方式只适用于对精度不那么敏感的结构。像CPU、GPU这类逻辑芯片，对时序的要求极高，任何纳米级误差都可能影响性能，所以不能用stitching。interposer因为只是布线层，没有复杂逻辑，可以容忍这种拼接带来的误差。围绕连接这件事，行业逐渐形成了cowos和emib两种不同的实现路径。一种是做一个统一的大平台，把所有芯片放在同一块interposer上，连接集中在这层完成，带宽能力很强，但成本也高。另一种是不做大底板，只在需要高速连接的地方嵌入一小块桥接结构，按需提供带宽，结构更灵活，制造压力也更小。在AI训练场景下，模型规模大，HBM带宽成为关键，整个平台需要维持极高的数据吞吐，这类设计更依赖大面积interposer。但推理场景的约束不一样，更关注成本、延迟和并发，带宽需求往往集中在局部，不需要整个平台都维持极致带宽。这时候，把芯片拆成多个模块，再用局部高速连接拼起来，会更合适。这也是EMIB这类方案更容易在推理芯片和ASIC里出现的原因。它不需要一整块大interposer，而是在关键位置提供高带宽连接，可以把计算、缓存、IO等模块分开设计，再按需组合。这样的结构更容易控制成本，也更有利于根据不同业务场景做定制化调整。对云厂自研芯片来说，这种灵活性很重要。当然，推理并不完全不需要高带宽。在一些大模型推理场景里，HBM依然重要，对应的封装方案也会更接近训练芯片。但在更广泛的推理需求中，成本和规模才是核心约束，这使得模块化和局部互连的价值变得更高。站在26年一季度末看未来，AI算力的扩展路径其实已经很清晰了。不是把单个芯片做得越来越大，而是把计算拆开，再用更高带宽把它们连接起来。芯片本身的尺寸被reticle锁死了，系统的规模则由连接能力决定。免责声明：本文非投资建议dyor

0

16

213

39

轉發到社區

rick awsb ($people, $people)@rickawsb

2026.05.20 16:45

一文看懂AI数据中心大周期下的功率半导体的下一场军备竞赛，不再只是GPU，而是Power AI 数据中心正越来越大，一个数据中心耗能动辄相当于一座中型城市。过去的数据中心是 10-20kW/rack，现在已经变成 80kW、120kW，甚至 600kW/rack。大型 AI Cluster 的耗电已进入 GW 级别。瓶颈除了GPU、cpu和储存，也开始转向电流、热、配电、铜损、电力转换效率、电网接入和 HVDC。 AI 数据中心产业链：电网 → 变压器 → UPS → HVDC → PSU → VRM → GPU。传统服务器大量采用 48V，因为传统互联网时代机柜功率不高。但 AI 时代，低压系统的问题开始全面暴露。因为： P = VI 同样 1MW 功率，48V 需要超过 20,000A 电流，400V 大约 2,500A，800V 进一步下降到约 1,250A。电流下降意味着铜缆变细、铜损下降、发热下降、母排缩小、PSU 压力下降、液冷压力下降，建设难度下降，成本更低。 800V 是电动车已验证的高压平台，EV 为什么进入 800V？因为快充、高功率、降低线损和降低热损耗。今天 AI 数据中心遇到的是同样的问题。于是 SiC、高压 MOSFET、高压 DC/DC、高压 PSU、HVDC、Busbar、固态变压器，这些原本偏新能源车的产业链，开始向 AIDC 外溢。但 800V可能只是开始，真正的大方向是 HVDC（高压直流化）。这是为什么传统工业电力公司突然重新被市场估值。像 Vertiv、Eaton、Schneider Electric、ABB、Siemens，开始成为 AI 产业链的重要受益者。这也是为什么功率半导体正在被市场重估值。英飞凌就是一个典型的从服务汽车的功率半导体无缝过渡到电力基础设施半导体的公司。英飞凌可能是目前全球少数真正做到“Grid-to-Core”的功率半导体平台。从电网侧高压、HVDC、PSU、GPU 供电、高频 GaN、Driver、Controller、MCU，到功率模块、MOSFET、SiC，几乎全部覆盖。这也是它最大的护城河。更重要的是，英飞凌不是 Fabless，而是 IDM。自己设计、自己制造、自己封装、自己测试。这在功率半导体行业极其重要。因为功率半导体和 CPU/GPU 不同。逻辑芯片拼的是 EUV、FinFET、GAA、晶体管密度。功率半导体真正拼的是热管理、高压稳定性、长寿命可靠性、材料、封装、外延和良率。尤其 AI 数据中心未来是长时间满载、高电流、高热密度、高压。制造本身就是技术。英飞凌现在真正重要的资产，包括 Villach、Dresden、Kulim。其中最关键的是 300mm power fab 和 200mm SiC。市场低估了一点：300mm 功率半导体其实非常难。因为热应力、良率、高压器件、缺陷控制，都远比普通成熟制程复杂。而 AI 时代，功率器件需求开始进入大规模扩张阶段。先进功率半导体制造能力本身，开始重新变成护城河。如果只看“最纯”的 AI 高压 power 玩家，则是 Navitas Semiconductor 和 Wolfspeed 这种公司。尤其 Navitas，本质上是 GaN + AI 高效率 power 的纯 Beta。 Wolfspeed 则是另一种逻辑。市 AI 数据中心如果全面进入 SiC PSU、HVDC、高压电力架构，那么它可能迎来第二增长曲线。另外还有大型工业电力平台。比如 Eaton、Schneider Electric、ABB。因为它们控制的是配电、中压、低压、断路器、电力管理和数据中心 power topology。而这些东西的 switching cost 极高。AI 最终会发现，GPU 可以换代，但电力架构一旦确定，生命周期极长。总的来说，谁能持续解决 AI 超高功率密度时代的电流、热、效率、配电、可靠性和电网接入，谁就可能在这个赛道上持续领先。因为 AI 的下一轮瓶颈，已经开始从 GPU，转向 Power。而这条产业链，现在还远没有被市场 fully priced in。免责声明：本人持有文章中提及资产，观点充满偏见，非投资建议，dyor

0

19

120

30

轉發到社區

宝玉@dotey

2025.05.19 02:17

转发提示词：风格人物+精神投射 by 虎小象 @hx831126 不是单纯的Pixar风格，有点Designer Toy 风格让模型帮我加入了人物戏剧夸张的身形和表情「修长身形，大脚，块状的结构」以此慢慢的让模型延展其他人物。提示词： A high-resolution vertical Pixar-style 3D character illustration. Main character: Salvador Dalí — depicted as a tall, slim, and slightly exaggerated Pixar-style 3D character. Wearing a classic blue shirt, yellow tie, high-waisted plaid trousers with suspenders, and leather shoes. His iconic long upturned mustache, slick black hair, sharply arched eyebrows, and slightly eccentric posture. Stands with chest out, one hand on hip, head tilted slightly back in his typical theatrical flair. Background: Flat, clean yellow background with subtle surface texture. Strong sunlight from top-left casts a distinct and enlarged shadow on the wall behind him. Key Concept – Shadow as spiritual projection: The shadow cast behind him does **not** mirror his body shape. Instead, it takes the form of one of his most iconic artworks — a surreal melted clock with long dripping arms, inspired by “The Persistence of Memory”. The melted clock shadow is positioned diagonally, starting from his shoulder, stretching wide and low across the yellow wall, surreal and fluid, yet unmistakably symbolic. This shadow is **Dalí’s legacy made visible** — a symbolic extension of his identity through time, dream, and visual distortion. Lighting & Rendering: Pixar-like rendering with detailed but stylized textures. Use subtle filmic grain, soft shadows, and warm color grading. Subtle sparkles or light speckles inside the shadow to evoke dreamlike texture. Typography (top-left corner): “Salvador Dalí” in minimalist black sans-serif font, “Dalí” bolded.

0

18

288

55

轉發到社區