註冊並分享邀請連結,可獲得影片播放與邀請獎勵。

檢索結果 MEMORYBOX
MEMORYBOX 貼吧
一個關鍵字就是一個貼吧,路徑全站唯一。
建立貼吧
用戶
未找到
包含 MEMORYBOX 的搜尋結果
SpaceX之前最重磅的IPO估计就是下周这个超大晶圆制造商Cerebras Systems的上市了,Cerebras是一家专注于AI加速器的美国公司,总部位于加州Sunnyvale,成立于2016年。公司以“晶圆级集成”(Wafer-Scale Engine,简称WSE)技术闻名,核心产品是将整个300mm硅晶圆直接做成一颗超级大的AI处理器,而不是像传统GPU那样切成小芯片再封装。这解决了AI训练/推理中常见的内存带宽和芯片间通信瓶颈问题,被誉为“世界上最大的AI芯片”。树立了下关于Cerebras几部分关键信息。 1、核心技术和产品 1)晶圆级引擎(WSE) 传统AI芯片(如NVIDIA H100/B200)采用多芯片模块(MCM)或小型die,通过NVLink/HBM等外部互联扩展。但Cerebras的WSE把整个晶圆做成单一die,避免了芯片间通信延迟和带宽损失,实现了“片上”海量并行计算。 WSE-3采用“Weight Streaming”架构,将计算和内存解耦,支持外部MemoryX扩展(1.5TB、12TB、120TB甚至1.2 PB),单系统即可训练高达24万亿参数的超大模型。 2)CS-3系统 单台15U机柜,内置1颗WSE-3,支持水冷。通过SwarmX互联可扩展至2048台集群,峰值达256 exaFLOPS。单台CS-3就能在不到1天内从零训练Llama 2 70B模型(Meta GPU集群需约1个月)。 3)性能优势 Cerebras强调“消除数据移动瓶颈”: 比上一代CS-2(WSE-2):性能翻倍,功耗和成本不变(CS-2用7nm,2.6万亿晶体管,40 GB SRAM)。 比NVIDIA H100/B200:在内存密集型大模型任务中优势显著。CS-3单系统内存容量远超10,000节点GPU集群;推理速度可达GPU云的数倍(尤其是长上下文/大模型)。公司声称在Llama/Falcon等模型上tokens/second提升2倍。 实际基准:Condor Galaxy 3(64台CS-3集群,8 exaFLOPS)已于2024年Q2上线,与G42合作。集群编程像“单芯片”一样简单,无需复杂分布式框架。 优势: 极致内存带宽 → 适合万亿/十万亿参数模型训练与推理。 扩展性强 → 集群像单机一样编程,开发效率高。 能效/成本在特定 workloads 上优于GPU(同功耗下性能翻倍)。 挑战: 单系统功耗高(25kW),部署门槛高(需专用数据中心基础设施)。 晶圆级制造良率和缺陷容忍技术虽成熟,但整体成本高(单系统硬件估算数百万美元)。 生态不如CUDA成熟,主要针对AI训练/推理大模型,不如GPU通用。 总体上Cerebras是“垂直优化”的AI超级计算机方案,适合追求极致规模和速度的 hyperscaler、主权AI项目、国家实验室,而非通用GPU替代品。 2、发展历程 Cerebras从“卖硬件”转向“AI超级计算平台”,已从早期科研验证走向商用落地(Condor Galaxy等主权AI项目)。 从SeaMicro老兵到AI晶圆级先锋 Cerebras成立于2015-2016年(官方多以2016年计),总部位于加州Sunnyvale。创始人团队全部来自SeaMicro(2012年被AMD以3.34亿美元收购),早期处于stealth模式四年,专注解决“晶圆级集成良率难题”。 1)2019年:发布首代WSE-1,开启晶圆级AI芯片时代。 2)2020-2022年:推出CS-1/CS-2系统,完成从“芯片”到“系统+软件栈”的闭环,与TSMC深度绑定实现量产。 3)2024年:WSE-3及CS-3系统落地,性能翻倍;同期首次递交S-1(后因业务优化于2025年10月撤回)。 4)2025-2026年:转向云推理服务+混合模式,与OpenAI签署巨额合作; 5)2026年2月完成Series H,4月重启S-1,5月启动路演,计划Nasdaq上市(代码CBRS)。 3、核心团队及融资 1)核心团队 Andrew Feldman(CEO、联合创始人):连续创业者,曾任SeaMicro CEO、Force10 Networks产品VP(后被Dell收购)、Riverstone Networks营销VP。斯坦福MBA背景,擅长产品化与资本运作。 Gary Lauterbach(联合创始人、前CTO):Sun Microsystems UltraSPARC首席架构师,58项专利,曾主导AMD数据中心业务。 Sean Lie(联合创始人、现CTO):MIT本科+硕士,AMD高级架构师,29项专利。 Michael James(首席架构师):SeaMicro软件架构师,后任AMD对应岗位。 Jean-Philippe Fricker(首席系统架构师):DSSD/SeaMicro资深硬件架构师,30项专利。 团队优势在于“系统思维”而非单纯芯片设计:他们深谙数据中心功耗、互联与软件优化,曾用fabric架构重塑服务器。这正是Cerebras能解决晶圆级缺陷容忍与Weight Streaming架构的关键。 2)融资历程 累计融资约29-37亿美元(含多轮),估值从早期数百M美元飙升至IPO前230-266亿美元: 早期:Series B/C/D(2016-2018)累计约1.7亿美元,投资者包括Foundation Capital、Eclipse、Sequoia、Benchmark。 中后期:2019 Series E(2.72亿美元,估值24亿美元);2021 Series F(2.54亿美元,估值41亿美元)。 2025-2026:Series G(11亿美元,估值81亿美元);Series H(10亿美元,估值230亿美元,Tiger Global领投,Benchmark、Fidelity、AMD等跟投)。 4、业务模式与财务表现 Cerebras早期卖硬件(CS-2/CS-3系统),后来转向云服务(Cerebras Inference,云端提供超快AI推理)和混合模式。客户包括CSP、 hyperscaler、企业、主权AI项目(如G42)、研究机构。 2025财年财务:收入5.1亿美元(同比+76%,2024年2.9亿美元,2023年0.787亿美元,2022年0.246亿美元,20倍增长)。硬件收入约3.58亿美元,云及其他服务1.52亿美元。 GAAP净利润:约0.879亿美元(2024年净亏损4.85亿美元),首次实现盈利(不过非GAAP仍有亏损)。 剩余履约义务(backlog):246亿美元(OpenAI等多年前期大单贡献),2026-2027年预计确认15%。 客户集中度:2025年G42占24%(此前曾高达87%),另一UAE客户占62%,但已显著多元化;OpenAI签署超100-200亿美元多年前期合作(含1亿美元贷款+认股权证)。 公司定位从“卖芯片”转向“AI基础设施平台+云”,并与Qualcomm等合作加速边缘部署。 5、IPO相关信息: IPO 基础发行2800万A类普通股,超额配售420万A类普通股,核心管理层和投资人不卖股。纯公司发行新股用于募资,无大量旧股套现。 IPO定价$115–$125/股,因需求超20倍,已计划上调至$125–$135/股(可能进一步调整)。高区间($125)募资约35亿美元(基础28M股),含超额配售最高约40.25亿美元。 高估值下($125/股)对应市值约266亿美元IPO后总流通股本约 2.13亿百万股(包括Class A、B、N等)。其中: Class A(上市交易股)为IPO发行的28M股 + 超额部分; 其余Class B(高投票权,创始团队/早期投资者/优先股转换后)和Class N(非投票权,如OpenAI认股权证相关)。 ipo后解禁期前的流通比例 标准锁定期: 180天或提前至Q3 2026财报发布后两个交易日(取较早者)。 解禁前初始流通股(Initial Float): 仅IPO发行的 28百万股(基础)或最高 32.2百万股(含超额)。 锁定期内真实流通比例: 约 13.1%–15.1%(28M / 213M ≈ 13.1%;32.2M / 213M ≈ 15.1%) 预期定价日:下周三5月13日,预期上市交易日:5月14日(周四),代码CBRS。 整体而言估值虽高,但增长潜力和技术壁垒值得关注 本条由@bitget_zh赞助,「Bitget 买美股:秒级入场,丝滑交易 」
顯示更多
0
16
364
86
轉發到社區
挑战 Nvidia 的芯片公司 Cerebras 上市日期定在 5.14,发行价 $115-$125, 对应市值在 270 亿美金 Cerebras的特色的是「大芯片」,整片 12 寸晶圆,片上内存 44GB SRAM,内存带宽高达 21 PB/s, 是 B200/Rubin 的 2625 倍,推理速度 15x 下面这个视频很直观,Cerebras 跑 GPT-5.3-Codex-Spark, 13 秒就把一个贪吃蛇游戏做出来了,常规的 GPT-5.3-Codex 用了 50 秒,在小模型上的确有优势 不过 44GB SRAM 装不下超过 1T 参数的主流大模型,通过外挂 MemoryX 模式能训练 24T 参数模型,但速度优势就没有那么大了,预估会缩小到 2-3x Cerebras 还有 2 个需要注意的点,86% UAE 都是 UAE 客户,集中度高;今年增速放缓,P/S 高达 43-49x 另外,Nvidia 的整个生态,仍是非常坚实的护城河 不过作为今年的 AI 芯片第一股,短时间内大概率还是会炒一波,Hiive 上目前 $181 +45%, Hyperliquid 上最高到过 320,现在 210 +68% 希望 moomoo 能支持打新,目前还没看到
顯示更多
0
15
222
38
轉發到社區
之前做LLM推理芯片架构探索的时候,我把四大AI推理ASIC公司的架构都翻过一遍。Groq、SambaNova、Tenstorrent、Cerebras。前三家的思路虽然各有侧重,但底层逻辑都在同一个框架里:片上大SRAM + dataflow架构 + 确定性调度,核心差异在NoC拓扑、内存层级、编译器抽象这些维度上展开。 Cerebras是里面让我真正被震惊到的一家,而它却这四家里马上第一个拿到IPO结果的。 这家公司的选择比其他三家都激进一个量级:不做芯片,直接做整片wafer。 单颗WSE-3,21.5cm × 21.5cm的整片晶圆,90万个PE通过scribe-line stitching在物理上连成一片连续的silicon。这个工艺是Cerebras和TSMC联合定制的,把原本用于晶圆切割的窄条改造成跨reticle的金属导线,让所有reticle在物理上拼接成一整块芯片。(配图二展示了单颗WSE-3内部结构:左半边是整片晶圆的reticle网格和scribe-line拼接,右半边放大了单个PE的微架构。) 单个PE的结构极简:8-wide FP16 SIMD计算核,48KB本地SRAM直连,没有cache层级,所有数据访问都是确定性的单周期。加上一个5端口路由器(N/S/E/W + loopback),相邻PE之间的通信延迟也是单周期。关键在于,跨reticle边界的mesh在物理参数上和reticle内部完全一致,编译器和runtime完全不需要感知reticle边界的存在。 从LLM推理的视角看,这个均匀性的价值非常大。 LLM推理的瓶颈在decode阶段。每生成一个token,模型权重要被完整读取一次,计算量却很小,典型的memory-bound场景。GPU集群在这个环节的核心问题是数据搬运:HBM带宽有限,多卡之间还要经过NVLink → NVSwitch → InfiniBand → Ethernet四层互联,每一层带宽和延迟都差几个量级,编程模型必须显式处理每一层的拓扑边界。 Cerebras的做法完全绕开了这个问题。单片wafer内部fabric带宽27 PB/s,权重从外部的MemoryX存储集群通过SwarmX流入wafer后,在PE之间按数据流模式传播执行,同一套placement和routing算法跑遍整片wafer。(配图一展示了这个系统级架构:MemoryX参数存储集群到SwarmX互联fabric,再到底层最多2048台CS-3节点,权重广播和梯度规约的数据流方向一目了然。) 90万个PE各自带48KB SRAM,合计约42GB片上存储,每个PE对自己本地SRAM的访问是单周期确定性的,PE间通信每跳single-cycle,延迟和曼哈顿距离成正比。对于推理场景,前提是weight streaming的编译器能把权重有效地分配到对应的PE上,这42GB分布式片上SRAM的聚合带宽远超GPU的HBM方案,没有cache层级带来的访问不确定性,没有跨芯片搬运的开销。 回到我自己的体感。做推理芯片架构的时候,NoC拓扑和内存层级的权衡花了大量精力,因为芯片边界是硬约束,跨芯片通信的成本和片内通信之间永远存在断层。Cerebras的做法等于从片内通信的角度消除了这个断层,代价是整条制造和封装链都要重新定义。 这也解释了Cerebras的工程取舍。所有架构创新集中在wafer内部,scale-out方向直接复用100GbE + RoCE的以太网生态。wafer内27 PB/s对比跨CS-3的SwarmX在Tbps量级,几个数量级的差距全部交给商品化网络承担。推理场景下单wafer内部的带宽和延迟优势可以直接转化成token生成速度。 OpenAI选择和Cerebras合作做推理,从架构层面看逻辑是通的。大规模在线推理需要低延迟、高吞吐、确定性时延,这三点恰好是wafer-scale架构在片上通信均匀性方面的结构性优势。 但这套架构也有几个结构性的问题值得正视。 良率和成本是绕不开的。整片wafer做单颗芯片,任何一个reticle的缺陷都影响整体。Cerebras靠冗余PE和路由绕行来应对,但冗余比例和良率数据从未公开过。一片wafer的制造成本本身就远高于切割后卖单颗die的模式,叠加23kW、15U的单系统功耗和体积,部署密度和TCO在大规模推理集群的经济性上面临考验。 最关键的是KV cache的容量瓶颈。42GB片上SRAM看起来很大,但长上下文推理场景下KV cache随序列长度线性增长。以Llama 70B为参考,FP16下128K上下文的KV cache就要吃掉约40GB,即使做KV cache量化,长序列场景下的容量压力仍然显著。片上放不下的部分必须依赖MemoryX做外部存储,数据要经过SwarmX回传,这条路径的带宽在Tbps量级,和wafer内部27 PB/s的差距意味着长序列场景下decode速度会被外部带宽卡住。这可能是Cerebras在推理场景面临的最核心的架构约束。
顯示更多
0
45
270
47
轉發到社區