註冊並分享邀請連結,可獲得影片播放與邀請獎勵。

檢索結果 Preview
Preview 貼吧
一個關鍵字就是一個貼吧,路徑全站唯一。
建立貼吧
用戶
未找到
包含 Preview 的搜尋結果
【Preview 预览】 双人同步高潮 姐妹的自慰指导 Double Orgasm - Step sis teaching masturbation
0
12
937
52
轉發到社區
GTC 2026 preview: 从Groq生态位看AI异构推理(Heterogeneous Inference)新时代 Groq的SRAM路线的生态位在哪里?SRAM会不会替代HBM路线? Nvidia如何整合groq到现有的产品线?是技术整合还是产品线整合?收购之后会给groq LPU产品带来怎样的升级? 这里尝试从基本原理出发去拼凑一个逻辑链 —-------------------------------------------- 先从first principal说说groq的设计哲学开始:groq本质上是一个compiler first走到极致的路线而不是SRAM first路线,SRAM路线只是副产品 相对于CPU针对通用workload的设计不同,AI 推理workload的特征在于确定性(deterministic)更高,基本没有data-dependent branching,tensor shape固定,memory access pattern确定 当Groq带着这个新特征重新审视 hardware-software interface,去问"什么应该在编译时做,什么应该在运行时做"。对于 AI 推理这个 workload,答案是:几乎一切都可以在编译时做 这就是Groq最疯狂而独特的地方:完全确定性编译器(fully deterministic compiler),compile精确到每个时钟周期,完全精确带来极致的效率。在编译的时候就需要考虑到硬件在运行的每个时刻的所有状态,扮演一个全知全能的上帝,就可以避免硬件资源的浪费,而要做到这一点,必须要做到极致的确定性,也就是说,LPU里每一个计算,访问存储,通信的延迟,都需要精确到clock cycle,这对compiler来说是非常复杂的 AI workload更高的确定性,以及groq的完全确定性编译器优先路线很自然的避免了VLIW的弱点(内存行为以及branch行为不可预测),放大了VLIW的优点。那么下一步要提高效率和并行度,VLIW 式的编码格式就是一个自然推论—既然编译器要控制每个功能单元每个 cycle 做什么,那指令格式当然就是一个宽指令里打包多个 指令会得到更高效率,这就是 VLIW 在groq的芯片里,不做乱序执行/speculation,大幅简化硬件(instruction dispatch仅占<3%面积),把复杂度移到静态compiler上,这正是VLIW思想的精髓 既然要让编译器做确定性的 cycle-accurate 调度,那么硬件里所有不确定的因素都要消除,比如arbiter,crossbar, replay,这些有自主算法在运行时决策的部分都砍掉 memory latency 也必须是确定的,所以一切 cache 和 DRAM都是要砍掉的,cache也要换成scratchpad SRAM,因为cache replacement 策略是runtime决策的,不确定,必须换成软件控制的scratchpad,地址映射完全由compiler控制,保证确定性 通信也必须精确到cycle,发送和接收指令就是软件协调好执行的时刻,并没有传统的“我要发一个包给你,请分配好内存”这类操作,而是同步地根据一份时间表严格执行SRAM 的分配和收发操作,这个时间表是compiler已经决定好的,硬件只需要执行就行了 完全确定性compiler也带来了芯片节点之间互联通信overhead的极低延迟,这可能是groq确定性架构最被忽视的最大优势,毕竟传统互联架构里Packet Routing、Arbiter Contention 和 Buffer Queuing,这些是延迟波动的重灾区 这就是为什么说,groq其实并不是一个native SRAM first的技术路线,也不完全算是VLIW first的技术路线,而是compiler first的技术路线,更准确的说,完全确定性compiler是整个groq架构的核心 只是因为确定性compiler的原因,所以在核心decode阶段无法使用HBM/DRAM带来的不确定性,SRAM only成为了必然的选择。这也是为什么说Groq更像是compiler first路线。 —-------------------------------------------- groq被收购之后最直觉的第一反应: groq确定性compiler技术路线有没有可能用在Nvidia现在的GPU+HBM体系上? 不能 原因有两个: 1. HBM/DRAM的物理特性和带宽优化决定了它天生带有不可预测的延迟,无法和deterministic compiler兼容 2. Nvidia的SIMT路线和Groq的VLIW/compiler first的哲学本质是有冲突的 DRAM为什么充满了不确定性 1.refresh操作每隔一段时间tREFI就会刷新一次cell上的电量,阻断bank访问,这是由DRAM cell物理特性决定的。而这个操作会随着温度的变化,refresh的频率也会变化 2. 为了最大化利用DRAM带宽,controller会做很多优化,最典型的是batch scheduling:把同一个page的traffic都放在一起减少page miss,同时让读写尽可能接触更多的bank,以及尽可能减少read和write switching 这些动态优化都是real time发生的,基本不具备可预测性 3. system上对DRAM的优化,比如bank address hashing,让compiler静态提前定位某段data难度太大,落实cycle确定性的复杂度太高 其实这些不确定性也是能解决的,代价就是放弃大部分的优化策略,大幅降低DRAM的efficiency和利用率。groq自己其实也对这方面做过探索,他们曾经做过一个确定性DRAM的专利,但工程上的实现是不现实的,这也是groq选择SRAM-only的核心原因之一。 所以确定性compiler技术路线用在DRAM上不是一个yes or no的问题,而是这不是一个好的选择,因为这意味着HBM的efficiency和BW都要大打折扣,而且是结构性无法避免的损失。 这几乎意味着要用compiler去重写一个完整的memory controller,因为确定性dram本质上是compiler software defined memory controller,这个SW controller会非常难做,复杂度极高,而且每一代memory迭代都要大幅更新compiler里的结构,在工程资源上是不现实的。而且每一代DRAM,每一家DRAM 供货商都需要调试 ,这在验证和validation上是一个nightmare --------- 为什么Nvidia的SIMT路线和Groq的VLIW/compiler first的哲学本质是有冲突的 这两套体系对同一个问题给出了相反的回答:运行时的不确定性,Groq是compiler阶段直接消灭所有不确定性,Nvidia选择了用warp switching去隐藏不可预测的延迟 Nvidia GPU 建立在 SIMT(单指令多线程)和硬件层线程调度器(Warp Scheduler)上。当一个warp因为访存而stall的时候,硬件warp scheduler立刻切换到另一个ready的warp继续执行,把stall的延迟藏在其他warp的计算里。这整套机制的前提恰恰是:延迟是不可预测的,所以需要足够多的并发线程来统计性地填满pipeline 如果要用确定性的编译器去接管,等于把 Nvidia GPU 里面最核心的硬件调度单元全盘废弃:如果你不需要多warp轮转,你也不需要那么大的register file 实际在历史上,AMD从TeraScale(VLIW)到GCN(scalar SIMT)的架构转型,正是GPU领域一次大规模的VLIW→SIMT迁移:当workload变得不够可预测时,VLIW的compiler负担太重,应该把调度权还给硬件 所以在原架构上引入确定性compiler应用到Nvidia现有的技术路线,是很难融合。这不是compiler能不能改的问题,是两套架构从第一性原理上就走了相反的方向。 所以说,Groq在Nvidia的唯一出路,就是独立的面向low latency decode的专用产品。 —-------------------------------------------- Nvidia收购Groq之后,就引出了第二个问题: Nvidia会给Groq带来什么样的新提升? 那么首先看看groq的瓶颈在哪里,简单的说 1. SRAM容量太小,无法容下大模型的参数量+kv cache 2. 推理decode主要瓶颈不在SRAM 80T/s的速度而在于interconnect延迟(占80%) 3. 对于Prefill这样的compute bound task速度较慢 groq的主要架构基本上是17~18年就完成了,那是CNN的时代,架构也是以CNN/LSTM为主要的target,当时测试benchmark都是ResNet50,SRAM容量是绰绰有余的 但是进入LLM时代,单个TSP计算卡230MB SRAM就显得不够看了,一个LLAMA 70B模型的参数量占内存就相当于3000个ResNet50,再加上因为上下文long context日益膨胀的KV cache,scale out就成了唯一的出路 于是一个70B模型的推理就需要576卡的集群,采用16个Pipeline并行 (PP)和36个tensor 并行 (TP),80层的大模型切成16级流水pipeline串行,每级横向5层MLP分给36个卡并行推理 16级流水pipeline串行(PP),每级流水到下级流水的通信overhead延迟就要 X16。实测中PP和TP之间的通信延迟占据了80%以上的总延迟,特别是PP延迟,占据了50%以上的总延迟,通信延迟成为了主要瓶颈 Groq计算卡对decode阶段的memory bound很友好,但是片上巨大的SRAM也挤压了compute的面积,导致prefill阶段耗时很高。融入Nvidia产品线之后,Groq产品完全可以扬长避短,只做自己擅长的decode部分,避免prefill阶段的短板 Nvidia带来的最重要的提升,可能是通过工艺的提升,以及hybrid bonding技术(类似AMD 3D V-Cache),扩大Groq LPU SRAM的容量,比如光是14nm到3nm的工艺提升,SRAM就能从230MB扩大到500MB,如果以后引入3D SRAM,容量还能翻倍 SRAM变大之后,原来576个LPU能完成的70B模型推理,现在只需要256个LPU了。猜测也许可以用32个tensor并行 X 8 个流水pipeline串行,pipeline interconnect延迟能直接减半。 所以Nvidia能带来的主要提升可能是,通过扩大SRAM的容量,减少scale out卡数,从而减少通信延迟时间,提高token速度 —-------------------------------------------- Groq的SRAM路线专用产品进入Nvidia产品线,引出了第三个问题: SRAM路线会颠覆HBM路线吗? 不会。 SRAM路线本质上是用十倍的成本换几倍的速度,只能适用于一部分愿意为低延迟付出高额溢价的市场。AI硬件市场的主旋律仍然是比拼TCO(total cost ownership)成本 做一个简单的成本核算就清楚了 以LLAMA 70B模型为例,算上KV cache,Groq需要576张计算卡组成集群。Groq计算卡零售价大约是每颗2万美元(groq CEO说实际售价远低于,那就按2000美元算),576卡就是超过110万美元的硬件成本。而2张H100就能跑同样的模型,成本不到10万美元。成本差距是一个数量级。 Groq于是转而卖token服务,Groq的API定价确实便宜,但这是因为两个原因叠加: 第一,Nvidia的GPU云服务商通常在硬件成本上加倍的margin卖出去; 第二,Groq自己是在亏钱运营的。2025年全年,Groq用LPU做大模型推理、对外卖API的业务,营收大约4000万美元,成本却是6000万美元,毛利-50%。Groq的便宜token价格不是因为SRAM的经济性更好,而是因为VC在补贴。 那么有人愿意为速度付溢价吗? 有。 Claude Opus 4.6 Fast模式就是一个很好的市场信号:输出速度提升2.5倍,定价直接从$5/$25涨到$30/$150 per million tokens,6倍的价格,估计是牺牲了batch带来的速度提升。 所以这部分市场是真实存在的,SRAM路线在这里有它的生态位。 但这个生态位有多大?要看ML workload的分类。不同的workload对硬件的侧重点要求差距巨大: 推理的Prefill阶段对带宽要求低但算力要求高,推理decode阶段则是反过来。R&R(Ranking & Recommendation)对算力和带宽要求都不高但对存储的容量要求巨高 (见附图) 对延迟敏感的推理workload,decode阶段对Memory bandwidth要求高,是SRAM路线的优势领域(图中红色线),主要是real time/interactive LLM:chat、copilot、agent这类需要实时响应的场景。 特别是reasoning model,SRAM路线带来的极致体验是很夸张的:H100要两三分钟跑完一reasoning,cerebras十秒就搞定了 这部分注重极致推理速度的市场有多大,我暂时没有找到一个详尽的调研,看到一个Hyperscaler的说法目前是10%左右 但是agentic flow workload,常用的agentic框架做profiling,比如SWE-Agent, LangChain, Toolformer,CPU最长可以占到90%的E2E端到端延迟,throughput瓶颈也更多的卡在CPU, 这些加起来通常远大于单次decode的延迟,SRAM路线速度优势被削弱。 而更大体量的workload:batch inference、offline processing、ranking、recommendation对延迟没有那么敏感,throughput和cost per token才是唯一的指标。这部分市场SRAM路线完全没有成本上的竞争力 H100/B200相当于大巴车,装的人多(batch processing),每个人的车票钱很便宜,但是慢悠悠。 Groq/cerebras相当于是法拉利,极致的速度体验,但是装的人少,人均票价是大巴车十倍甚至以上。 长期来看,SRAM的成本劣势是结构性的,不会随时间收敛。6T SRAM cell天然比1T1C DRAM cell贵,这是物理决定的,和工艺无关。而且SRAM scaling已经慢了下来,从N5到N3E,SRAM单元面积几乎没有缩小 即便是速度优势,SRAM路线的缺陷在于访问速度已经接近工艺极限,很难跨代提升。特别是HBM的速度每代都在指数上升的情况下,SRAM 80T/s的速度优势很难长久维持。十年前这个路线刚刚兴起的时候,SRAM速度比HBM快了两个数量级简直是降维打击,但现在的速度差已经不到一个数量级(Rubin HBM4 22TB/s),再过十年,两者的速度可能拉不开差距了。 所以结论很清楚:SRAM不会颠覆HBM,但它在低延迟、低batch、实时推理这个细分市场里有不可替代的价值。但长远来看,随着HBM速度指数上升的背景下,SRAM优势也会逐渐慢慢越小。 —-------------------------------------------- 写到这里,也许我们可以把这些碎片拼凑出Nvidia收购Groq之后计划的下一步雏形: 异构推理的新时代开启了 以后的推理workload本身已经分化,无法再用单一架构的最优点覆盖,体系结构最重要的是tradeoff,是尺度范围。一个架构形态在合理的tradeoff以及特定workload下可能惊为天人,用多个架构形态去迎合不同种类的workload,就是异构计算的思想 2026 GTC的最大主题,就是异构推理的系统化。推理不会由单一硬件统一完成,而会被拆成 几个部分: 控制和调度/agent runtime层交给Vera CPU 针对long context的prefill交给CPX (Content Phase aXcelerator,一个专门为prefill的compute bound特性设计的计算模块) 小模型/低延迟/low batch decode交给SRAM路线的Groq LPU,256块LPU集群 高吞吐/高并发batch decode,HBM GPU仍然是主力 以及可能会被忽略的ICMS:inference context memory storage, kv cache已经是核心基础设施,以前的异构更多是计算异构,现在的异构已然延申到了缓存异构memory hierachy heterogenity(似乎改名成了CMX: context memory storage) LPU和GPU的分工,更可能成为 inference stack 里两个不同的tier,小模型/低延迟/low batch都交给LPU,长context/high batch交给HBM GPU 目前CPX什么方式和LPU/GPU连接还尚不清楚,整个工作流程大概是,CPU做控制和调度,CPX Prefill 跑完得到几十 GB 的 KV Cache, 分配到 Groq LPU阵列SRAM,或者分配到HBM GPU,开启Decode流程 其实还有一种更大胆的猜想:如果引入speculative decoding,那么LPU完全可以跑通常尺寸较小的草稿模型,在LPU上速度极快,HBM GPU作为主力去验证草稿模型即可,这样的异构推理结构,可以让token rate大大加速,在某些场景下翻倍也是没问题的(比如代码任务模式固定,小模型很容易猜对语法,所以加速效果很好) 当 Nvidia 的眼光越过GPU,走向整个 Agentic 流程的系统级优化时,追赶它的难度已经不在一个单一维度了。以前 Nvidia 步子迈得大,靠的是 GPU 架构和参数的单点暴力跃升;而现在,随着CPX,LPU,ICMS加入异构推理,它是从“数据中心即一台计算系统”的系统视角出发,从Agentic flow的角度做底层的异构编排。 无论是系统的复杂度,还是软件栈的工作量(Dynamo/ICMS/CMX),Nvidia 迈出的这一大步,直接把竞争门槛从“做出一颗好芯片”拉高到了“定义一整套异构系统来做普适加速计算解决方案“ —------------------------------------------------------- 不由得感慨,每一次计算范式的改变,半导体都会带来一波新的startup热潮,但当软件/应用形态逐渐收敛,最后还是变成了大厂通过收购把功能做大做全,参数做的更高,系统深度整合的更好更全面,成本更低,功耗和跑分更优秀,让startup慢慢失去独立生存的空间 比如移动互联网时代早期,也是群雄并起,有做AP应用处理器,独立基带芯片的,ISP的,GPU的各种小公司。但最后的赢家,都是从到后来把GPU,ISP,modem全都做进SoC,并且完成系统级整合的异构计算平台。 苹果收购PA semi的CPU,英飞凌的modem,掏空Imagination的GPU;高通收购ATI的mGPU,Atheros的Wifi,Nuvia的CPU,CSR的蓝牙/DSP,都是典型例子 异构推理的复杂度越来越高,能做系统级整合的公司会更有优势,这和移动SoC时代的逻辑一模一样。AI时代nvidia收购arm(失败),收购Mellanox,收购groq,只是这个新历史轮回的开始
顯示更多
0
31
292
78
轉發到社區
3. 五角大楼计划武器化AI模型(信息差最高) - 优先级: 7 | 影响力: 2 | 信息差: 5(最高) - 来源: Gizmodo (16小时前) - 核心: 五角大楼计划采用具有网络攻击能力的AI模型,特别提到 Claude Mythos Preview(Anthropic未发布的超强模型) - 影响: AI军事化的重要信号,涉及地缘政治和AI安全 - 中国讨论度: 几乎没有讨论,信息差最大
顯示更多
阿里千问这波牛逼:人走了,版本号还在加速跑。 Qwen3.7-Plus-Preview 视觉榜拿到国产第一, Qwen3.7-Max-Preview 上 Arena 文本第 13; 阿里让 3.6 和 3.7 两代预览版并行冲刺,国产模型进入月更战,慢半拍就可能出局。
顯示更多
推理成本仅GPT-5.5二十分之一,Gemini 3.2实时模型现身谷歌云 谷歌云控制台的模型筛选列表中出现名为 gemini-3.2-flash-lite-live-preview 的基础模型选项。这是继本月初在 iOS 应用构建包和 AI Studio 暴露痕迹后,该系列模型在官方平台的再次曝光。 新选项带有 lite 与 live 后缀,表明谷歌正切分出针对极低延迟实时交互的特化版本。 首席执行官 Bindu Reddy 此前透露,Gemini 3.2 Flash 的编码与推理能力达到 GPT-5.5 的 92%,但得益于蒸馏加稀疏化技术,推理成本仅为后者的二十分之一,多数查询延迟低于 200 毫秒。 随着云端接口提前抢跑,业内预计这一定位极致性价比的轻量模型将在 5 月 20 日的谷歌 I/O 大会上正式发布。 #AI# #AIAgent#
顯示更多
软件安全这条线,真见证历史了。 Mozilla 官方表示,4 月份一共修复了 423 个 Firefox 安全漏洞,其中 271 个是 Claude Mythos Preview 一个模型挖出来的,还包括 15 年和 20 年前的老 bug,连那种 fuzzer 跑了几十年都跑不出来的沙箱逃逸,都被翻出来了。 为这事 Mozilla 内部 100 多个工程师连轴转,写补丁、复现、测试、发版,连续好几周。 攻击者今天就能用同一套 AI 把代码扫穿,防御者要是还停在「AI 安全报告全是 slop」的旧印象里,就先输一半了。
顯示更多
0
14
136
14
轉發到社區
服装品牌的电商详情页图的工作流其实已经开始在跑了。且ok。 一个quick studio 页面用于上传素材和生成结果。 一个页面preview 用于各个需要图片的下载所需的图片 今天部门领导说:可不可以给美工减轻一下工作量?Logo加上去,自动按顺序拼好图。 我想的实现路径是: 阶段1: 批量生成(已经做完自动化) 每个出图任务跑 2-4 张 ↓ 阶段2: 选图(人工,在预览页面完成,这个步骤我不知道能不能省掉,目前来看是省不掉的) 每个任务组显示 2-4 张缩略图 用户点击选出每组的「定稿」(标记 ★) ↓ 阶段3: 后处理(自动,一键触发) ✅ 主图叠 Logo (用代码贴 PNG透明图标,白底图跳过,因为白底图不需要加Logo,然后不用图像模型去加的原因是可能不稳定,位置大小没有100%按照约束的去做,增加抽卡的可能性) ✅ 氛围图拼图(从标记 ★ 的氛围图里取3张 → 上1下2) 氛围图我没有直接出一张上1+下2的9:16 我是出多张,然后拼,原因是这样服装的还原度是最高的。 ✅ 长图拼接(按模式对应的顺序拼接 ★ 图)顺序已经安排好,上装的顺序,下装的顺序,套装/连衣裙的顺序 ✅ 分3个文件夹存储(详情页 / 主图 / 素材) 素材的作用是,需要有一个图片对比质检的过程。 👆内容真正接触落地场景的应该都能懂。 要流程化,要减少人的工作量,能代码解决的,就不要用AI解决,搭配干活发挥各自的特长。
顯示更多
由AI自己建立的骇客帝国也许不远了! Cloudflare曝光Anthropic Mythos实测:已能自主写代码,将低危漏洞串联为完整攻击链 Cloudflare 今日公布了参与 Anthropic 内部安全项目 Project Glasswing 的实测结果。在针对自身 50 多个代码库的测试中,Cloudflare 证实安全模型 Mythos Preview 突破了此前大模型的瓶颈。它不仅能发现孤立的系统缺陷,更能将多个低危漏洞串联组合,自主写代码生成可执行的攻击证明(PoC)。 此前的 Opus 4.7 或 GPT-5.5 在测试中往往只停留在输出漏洞分析报告的阶段。Mythos 则具备了沙盒闭环验证能力。它会写出触发漏洞的代码并编译运行,若执行失败,模型会自动读取报错信息、修正假设并再次尝试,直到彻底打通攻击链。 Cloudflare 透露,业内部分安全团队已被迫执行 2 小时内完成修补的极限标准。但 Cloudflare 强调,单纯压缩补丁时间会因跳过回归测试引发更大的系统故障,未来的防御重心必须转向从架构层面切断代码的连通性。 在工程调度上,Cloudflare 发现单流编程智能体会迅速耗尽上下文,无法胜任大规模漏洞挖掘。他们为此搭建了一套平行对抗框架,让一个智能体在极窄范围内寻找漏洞,同时安排另一个搭载不同模型的智能体专门驳斥前者的结论。这种对抗机制大幅过滤了模型扫描中普遍产生的大量误报噪音。 由于本次测试使用的是无外部限制的预览版,Mythos 展现出了极不稳定的内部护栏。面对同一段目标代码,仅仅改变运行环境的上下文描述,模型就会从拒绝执行转为直接提供攻击载荷。Cloudflare 警告,由模型自发生成的内生护栏极其脆弱,未来面向公众发布时必须强制叠加外部防线。 #AI# #AIAgent#
顯示更多
距前代发布仅四周,阿里Qwen3.7空降大模型竞技场!旗舰款登顶国产第一 阿里千问团队在 悄然上线 Qwen3.7 系列首批预览版:Max 与 Plus。新版本强制锁定为深度思考模式,并为此临时禁用了联网搜索与代码解释器。 在最新出炉的大模型竞技场 Arena 榜单中,Qwen3.7 拿下了文本与视觉领域的双料国产第一。 其中,旗舰款 Qwen3.7-Max-Preview 位列文本总榜全球第 13,将阿里实验室的文本研发排名推高至全球第 6。新模型在硬核推理赛道全面挤入全球前十:数学第 7、专家提示与软件 IT 第 9、代码生成第 10。 主打视觉的 Qwen3.7-Plus-Preview 则拿下视觉榜全球第 16。这也将阿里的整体视觉研发实力推高至全球第 5 位。 前代旗舰 Qwen3.6-Max-Preview 在 4 月 20 日才发布,仅隔 28 天便推出 Qwen3.7 预览版,产品迭代速度极快。此次赶在会前「偷跑」上线,显然是在为 5 月 20 日于杭州开幕的 2026 阿里云峰会造势,届时官方将正式揭晓新基座的技术底牌与商业部署。 #AI# #AIAgent#
顯示更多
五年时间,砸进去几十亿美金。 苹果给 M5 芯片砌起的内存防御铁壁,被端了。 两名研究人员跑到苹果加州总部大门前合影。 手里举着份报告,核心直接骑脸:从类型混淆到 Root 权限。 他们拿到了 M5 芯片上首个公开的 macOS 内核内存破坏漏洞。 靠什么拿下的? 一把叫 Mythos Preview 的新尖刀。 团队只透了点口风,给出的评价很干脆:这工具威力大得惊人。 花大价钱焊死的底层大门,连着硬件体系被生生撬开。 在顶级漏洞猎人眼里,永远没有砸钱就能买到的绝对安全。
顯示更多