注册并分享邀请链接,可获得视频播放与邀请奖励。

搜索结果 推理
推理 贴吧
一个关键词就是一个贴吧,路径全站唯一。
创建贴吧
用户
未找到
包含 推理 的推特
推理成本仅GPT-5.5二十分之一,Gemini 3.2实时模型现身谷歌云 谷歌云控制台的模型筛选列表中出现名为 gemini-3.2-flash-lite-live-preview 的基础模型选项。这是继本月初在 iOS 应用构建包和 AI Studio 暴露痕迹后,该系列模型在官方平台的再次曝光。 新选项带有 lite 与 live 后缀,表明谷歌正切分出针对极低延迟实时交互的特化版本。 首席执行官 Bindu Reddy 此前透露,Gemini 3.2 Flash 的编码与推理能力达到 GPT-5.5 的 92%,但得益于蒸馏加稀疏化技术,推理成本仅为后者的二十分之一,多数查询延迟低于 200 毫秒。 随着云端接口提前抢跑,业内预计这一定位极致性价比的轻量模型将在 5 月 20 日的谷歌 I/O 大会上正式发布。 #AI# #AIAgent#
显示更多
我的推理引擎在本地Mac mini 4,让Qwen 1.7B模型跑四个小时的长程推理,目标是把kv cache 存储空间控制在7.4 MB大小。
目前大模型推理层面毛利很高,亏损是加倍投入研发下一代模型造成的。那么什么时候全面盈利呢? Anthropic CEO Dario的结论是,到一个阶段会出现模型研发投入不再增长的阶段。例如到1000亿美元研发,这个额度差不多就无法增长了。这时候主要依赖算法迭代让模型提升。
显示更多
0
17
43
1
转发到社区
apple 自己不负责推理,但是 iOS App 和 AI 相关的收入却仍然要基于 IAP 缴纳 apple 税,相当于我的 AI 产品,app 版本要比 web 版本平白无故贵上 15-30%,试问我有什么动力做 app?(还需要麻烦用户下载)
显示更多
0
13
74
2
转发到社区
之前做LLM推理芯片架构探索的时候,我把四大AI推理ASIC公司的架构都翻过一遍。Groq、SambaNova、Tenstorrent、Cerebras。前三家的思路虽然各有侧重,但底层逻辑都在同一个框架里:片上大SRAM + dataflow架构 + 确定性调度,核心差异在NoC拓扑、内存层级、编译器抽象这些维度上展开。 Cerebras是里面让我真正被震惊到的一家,而它却这四家里马上第一个拿到IPO结果的。 这家公司的选择比其他三家都激进一个量级:不做芯片,直接做整片wafer。 单颗WSE-3,21.5cm × 21.5cm的整片晶圆,90万个PE通过scribe-line stitching在物理上连成一片连续的silicon。这个工艺是Cerebras和TSMC联合定制的,把原本用于晶圆切割的窄条改造成跨reticle的金属导线,让所有reticle在物理上拼接成一整块芯片。(配图二展示了单颗WSE-3内部结构:左半边是整片晶圆的reticle网格和scribe-line拼接,右半边放大了单个PE的微架构。) 单个PE的结构极简:8-wide FP16 SIMD计算核,48KB本地SRAM直连,没有cache层级,所有数据访问都是确定性的单周期。加上一个5端口路由器(N/S/E/W + loopback),相邻PE之间的通信延迟也是单周期。关键在于,跨reticle边界的mesh在物理参数上和reticle内部完全一致,编译器和runtime完全不需要感知reticle边界的存在。 从LLM推理的视角看,这个均匀性的价值非常大。 LLM推理的瓶颈在decode阶段。每生成一个token,模型权重要被完整读取一次,计算量却很小,典型的memory-bound场景。GPU集群在这个环节的核心问题是数据搬运:HBM带宽有限,多卡之间还要经过NVLink → NVSwitch → InfiniBand → Ethernet四层互联,每一层带宽和延迟都差几个量级,编程模型必须显式处理每一层的拓扑边界。 Cerebras的做法完全绕开了这个问题。单片wafer内部fabric带宽27 PB/s,权重从外部的MemoryX存储集群通过SwarmX流入wafer后,在PE之间按数据流模式传播执行,同一套placement和routing算法跑遍整片wafer。(配图一展示了这个系统级架构:MemoryX参数存储集群到SwarmX互联fabric,再到底层最多2048台CS-3节点,权重广播和梯度规约的数据流方向一目了然。) 90万个PE各自带48KB SRAM,合计约42GB片上存储,每个PE对自己本地SRAM的访问是单周期确定性的,PE间通信每跳single-cycle,延迟和曼哈顿距离成正比。对于推理场景,前提是weight streaming的编译器能把权重有效地分配到对应的PE上,这42GB分布式片上SRAM的聚合带宽远超GPU的HBM方案,没有cache层级带来的访问不确定性,没有跨芯片搬运的开销。 回到我自己的体感。做推理芯片架构的时候,NoC拓扑和内存层级的权衡花了大量精力,因为芯片边界是硬约束,跨芯片通信的成本和片内通信之间永远存在断层。Cerebras的做法等于从片内通信的角度消除了这个断层,代价是整条制造和封装链都要重新定义。 这也解释了Cerebras的工程取舍。所有架构创新集中在wafer内部,scale-out方向直接复用100GbE + RoCE的以太网生态。wafer内27 PB/s对比跨CS-3的SwarmX在Tbps量级,几个数量级的差距全部交给商品化网络承担。推理场景下单wafer内部的带宽和延迟优势可以直接转化成token生成速度。 OpenAI选择和Cerebras合作做推理,从架构层面看逻辑是通的。大规模在线推理需要低延迟、高吞吐、确定性时延,这三点恰好是wafer-scale架构在片上通信均匀性方面的结构性优势。 但这套架构也有几个结构性的问题值得正视。 良率和成本是绕不开的。整片wafer做单颗芯片,任何一个reticle的缺陷都影响整体。Cerebras靠冗余PE和路由绕行来应对,但冗余比例和良率数据从未公开过。一片wafer的制造成本本身就远高于切割后卖单颗die的模式,叠加23kW、15U的单系统功耗和体积,部署密度和TCO在大规模推理集群的经济性上面临考验。 最关键的是KV cache的容量瓶颈。42GB片上SRAM看起来很大,但长上下文推理场景下KV cache随序列长度线性增长。以Llama 70B为参考,FP16下128K上下文的KV cache就要吃掉约40GB,即使做KV cache量化,长序列场景下的容量压力仍然显著。片上放不下的部分必须依赖MemoryX做外部存储,数据要经过SwarmX回传,这条路径的带宽在Tbps量级,和wafer内部27 PB/s的差距意味着长序列场景下decode速度会被外部带宽卡住。这可能是Cerebras在推理场景面临的最核心的架构约束。
显示更多
0
45
270
47
转发到社区
是 xAI 的推理利用率太低了,以至于外租给 Claude code 使用了吗?
We’ve agreed to a partnership with @SpaceX that will substantially increase our compute capacity. This, along with our other recent compute deals, means that we’ve been able to increase our usage limits for Claude Code and the Claude API.
显示更多
0
17
50
1
转发到社区
训练不足推理补 推理不足代理补 代理复杂约束补 约束麻烦大家补 所以,加速计算是智能,通用计算也是 在通往agi的路上,存储,gpu,cpu都会被榨干,都会严重短缺
显示更多
2026 年,AI 正式进入推理时代。 有一个反直觉的事实是,英伟达这些顶级 GPU 在执行 AI 推理任务的时候,真正用来计算的时间,只占用总任务时长的不到 1%。 剩下 99% 的时间,GPU 只是在重复地搬数据,计算的利用率非常低。 如何解决 AI 推理受阻的难题? 这就要引出今天视频的主角 Cerebras,押注 AI 推理芯片研发,这周四即将在纳斯达克交易所挂牌上市,可以说是今年最热的芯片公司 IPO。 今天这期视频,近 50 分钟时间,一次性拆解清楚 Cerebras 这家公司,核心内容如下: - AI 推理爆发的背景与 GPU 的瓶颈 - Cerebras 推理芯片底层原理与技术路线 - Cerebras 竞争对手 Groq - Cerebras 背景、商业模式、财务数据、护城河、风险 最后回答一个关键问题,Cerebras IPO 是否值得参与。
显示更多
@mubeitech 结论可能有点道理,但推理太搞笑了。
【AI競爭】Google瞄準推理晶片賽道 挑戰行業領頭羊輝達 Google將推出專門用於推理的新晶片,即在模型訓練完成後運行AI模型。Google有望對市場領導者輝達發起更大挑戰。該公司計劃在拉斯維加斯舉行的Google Cloud Next大會上宣佈新一代定製晶片,即張量處理單元(TPU)。
显示更多