注册并分享邀请链接,可获得视频播放与邀请奖励。

搜索结果 brunch
brunch 贴吧
一个关键词就是一个贴吧,路径全站唯一。
创建贴吧
用户
未找到
包含 brunch 的推特
Homemade brunch time 🥘 最近行情不好 醒了就琢磨「今天吃什么」 吃饱了就开始想「明天吃什么」 人生两大课题,我已经拿捏了
0
11
27
0
转发到社区
涂涂姐教你约会系列第九期 从拼多多到爱马仕——3类"消费分层女"的精准猎杀指南 今天这期,姐要给你们讲一个99%的情感博主都不敢碰的话题: "如何根据女人的消费水平,选择不同的得吃打法。" 姐知道,这个话题一出来,键盘侠们就要跳出来骂"物化女性""消费主义""三观不正"。 但兄弟们,姐告诉你一个残酷的真相: "你追一个用拼多多的姑娘,跟追一个背爱马仕的贵妇,用的是完全不同的两套打法。你要是搞混了,前者觉得你装大、后者觉得你寒酸,两边都得吃不到。" 姐在这行混了8年,复盘过上千个学员的案例,得出一个铁律: 看一个女人的微信支付流水,比看她朋友圈准10倍。 她在哪里花钱、花多少钱、花给谁,比她写的那些"emo文学"诚实100倍。 今天这篇,姐就给你把3个消费阶层的女人,从画像到场景、从话术到道具、从SOP到避坑,一次性拆透。 一、为什么"消费分层"是得吃的第一性原理? 兄弟们,先听姐说一个底层逻辑: 女人的消费习惯,反映的是她的"情感缺口"。 拼多多女:她省钱,不是因为穷,是因为**"她从小就被教育要省"。她最大的情感缺口是——"没人带她见过世面"**。 山姆女:她精打细算地过中产生活,最大的情感缺口是——"老娘累死累活,没人给我提供情绪价值"。 爱马仕女:她什么都不缺,最大的情感缺口是——"所有男人都看上我的钱,没人把我当女人"。 得吃的核心,就是精准击中她的情感缺口。 你给拼多多女讲爱马仕,她觉得你装;你给爱马仕女讲拼多多,她觉得你low。 3类女人,3套打法,错位就是死局。 二、第一类:拼多多女(消费降级型) 🎯 画像识别 年龄:22-28岁 职业:小镇做题家、应届生、月薪5K-8K的小白领、二三线城市文员 特征:朋友圈晒拼多多9.9包邮的小裙子 美妆都是国货平替(花西子、完美日记) 周末娱乐:刷短视频、看网文、点蜜雪冰城 朋友圈背景图常年是"努力变富""脱贫攻坚" 💔 情感缺口 "没人带我见过世面。" 她不是不想要好东西,她是从来没人带她体验过好东西。 她的男朋友(如果有的话)大概率也是个屌丝,俩人吃9块9的麻辣烫、看免费电影、过情人节互送一杯瑞幸。 她对"小确幸"的渴望,比谁都强。 🗺️ 出没场景 蜜雪冰城、瑞幸咖啡(点单的姑娘) 优衣库、Zara打折区 地铁通勤路上戴耳机看小说的 周末一个人逛IKEA的(她其实不买,就是去蹭氛围) 💎 实操SOP 核心打法:用最低的成本,给她"她从未体验过的东西"。 第1步:低成本搭讪(建立"有趣"人设) 场景:周末的IKEA 她在样板间里坐着发呆,你走过去: "这个沙发我家就有一个,便宜又舒服,但其实你坐久了腰会疼。要买的话我推荐你看那边那款,差不多的价格但更耐用。" 关键点:用"懂行"+"为她省钱"建立信任。 拼多多女最吃这一套——"你帮我省钱了 = 你不是骗子"。 第2步:用"小惊喜"降维打击 加了微信后,别带她去吃高端餐厅,那会吓跑她。 正确打法: 带她去一个**"她没去过的便宜小馆子"**(比如苍蝇馆子、本地老字号) 带她去一个**"免费的好地方"**(艺术展、独立书店、城市观景台) 给她拍**"她没拍过的好看照片"**(用富士相机或者手机调色,朋友圈出片) 话术: "这家店在这条巷子里藏了20年,我朋友带我来过一次,吃完我就忘不掉了。今天带你来尝尝,比那些网红店好吃100倍。" 核心:人均50的小馆子 + 你的"内行感" = 她的"被特殊对待感"。 第3步:用"成长感"绑定她 拼多多女最大的渴望是**"变得更好"**。 你要扮演一个**"带她成长的男人"**: 推荐她看几本书(《认知觉醒》《纳瓦尔宝典》) 教她用Excel、PPT 跟她聊职业规划、副业、理财 话术: "你这么聪明,不应该只做现在这份工作。我跟你讲讲我朋友的故事,他从月薪5千做到现在……" 目的:让她觉得"跟着你,我能变成更好的自己"。 第4步:临门一脚 最佳时机:她升职、加薪、或者考过了某个证。 约她出来庆祝,第一次带她去一个"稍微好一点"的地方——比如人均200的西餐厅、有夜景的酒吧。 她会被"质感"震到,那一晚,你就能得吃。 总投入:不超过1500块。 ⚠️ 避坑 ❌ 不要装大:你穿个假LV,她一眼能看穿,立刻拉黑你。 ❌ 不要嘲讽她的消费习惯:"你怎么还用花西子啊"——这话出口你就死了。 ✅ 要做"踏实哥哥":稳重、靠谱、有未来感。 三、第二类:山姆女(中产精算型) 🎯 画像识别 年龄:28-35岁 职业:大厂中层、互联网产品经理、外企白领、医生律师 特征:月薪2-5万,但每一分钱都精打细算 周末必去山姆/Costco,囤一冰箱牛排和坚果 穿lululemon瑜伽裤、背Longchamp饺子包 朋友圈晒的是"今日健身打卡"、"亲手做的brunch" 用Notion管理生活、用Keep练瑜伽 💔 情感缺口 "老娘累死累活,没人给我提供情绪价值。" 这类女人,外表光鲜、内心枯竭。 她每天996、健身、做饭、保持身材,活得像一个**"高执行力的机器"**。 她的男朋友(如果有的话)也是个加班狗,俩人一周见不了两次,亲密关系早就名存实亡。 她最渴望的,不是钱、不是包,是一个"能让她暂时关掉大脑"的男人。 🗺️ 出没场景 高端健身房(SPACE、超级猩猩) 山姆会员店周末下午 高端轻食店(wagas、gaga鲜语) 周末早上的Brunch店 一个人去看话剧、音乐会 💎 实操SOP 核心打法:做她的"情绪解压阀"。 第1步:用"专业感"破冰 场景:山姆会员店 她在牛排区挑选,你走过去: "这块M5的肉其实没那么值,今天的M3反而更新鲜。你是煎着吃还是低温慢煮?煎的话我推荐你买那个去骨眼肉。" 关键点:山姆女最吃"懂行+有品味"。 她加你微信的概率,80%。 第2步:建立"高质量陪伴"人设 加微信后,别天天找她聊天,那是屌丝行为。 正确打法: 一周聊2-3次,每次聊20分钟 聊的内容必须**"有营养"**:行业洞察、读书心得、运动数据 适当**"消失"**——周末别找她,让她自己想你 话术示范: "今天看到一份[行业报告],里面提到[某个观点],跟你上次聊的事挺有关,发你看看。" "刚跑完10公里,配速5'30'',破纪录了。你呢?最近有没有抽空去练?" 目的:让她觉得"你是一个跟她平等的、有自己生活的男人"。 第3步:用"反精算"打动她 山姆女的痛苦在于**"什么都要计算"**——卡路里、KPI、性价比。 你要做她的"反精算时刻"。 突然送她一束**"她不会自己买的花"**(不用贵,500块的尤加利叶就行) 临时约她"今晚不加班,陪我去看个livehouse" 周末早上7点发她:"起来,带你去吃这个城市最好吃的牛肉面,开车40分钟,值。" 关键:制造"非理性的小冲动"。 她平时所有决定都是"计算最优解",你给她一个"不计算的瞬间",她就沦陷了。 第4步:临门一脚 最佳时机:她加完一次大班、做完一个大项目、或者跟同事吵架后。 约她去一个**"高质感但不浮夸"**的地方——比如威士忌吧、小型爵士酒吧、深夜的天台餐厅。 让她喝两杯,听她吐槽工作。 话术: "你已经撑得太久了。今晚不用做'XX经理',就做你自己。" 这句话出来,80%的山姆女会湿眼眶。 剩下的,你懂。 总投入:3000-5000块。 ⚠️ 避坑 ❌ 不要送奢侈品:她自己买得起,你送了显得寒酸。 ❌ 不要谈未来:山姆女只活当下。 ✅ 要"有自己的事业":她不要凤凰男,要"势均力敌"的男人。 四、第三类:爱马仕女(贵妇/高净值型) 🎯 画像识别 年龄:30-45岁 职业:富二代、企业主太太、高管夫人、独立女企业家 特征:包是Birkin/Kelly起步,鞋是Manolo 朋友圈晒的是马场、画廊、私人飞机 喝单一麦芽威士忌,不喝鸡尾酒 私教、瑜伽老师、营养师都是私人定制 朋友圈三天可见,看不到真实生活 💔 情感缺口 "所有男人都看上我的钱,没人把我当女人。" 这是姐反复强调的一个点:爱马仕女最缺的,不是钱,是"被当成普通女人对待"。 她身边的男人分两种: 舔狗——巴结她、讨好她、想吃软饭 更有钱的老男人——把她当资产配置 她从来没有遇到过一个"真正把她当女人"的男人。 🗺️ 出没场景 私人会所(华谊兄弟、上海长宁的) 高端马术俱乐部 画廊开幕式、艺术品拍卖会 五星级酒店的lobby bar 商务舱、头等舱 💎 实操SOP 核心打法:反向降维打击——你越"不在乎她的钱",她越想征服你。 第1步:用"反向疏离"建立人设 场景:五星级酒店lobby bar 她一个人坐在角落喝威士忌。 绝对不要主动凑过去搭讪。 正确打法:你坐到吧台另一头,点一杯比她更专业的酒,然后假装看书或者处理工作。 10分钟后,让侍者送她一杯**"你点的那款"**,附一张小纸条: "你点的那款其实有点甜,这一款更适合你的气质。——隔壁的陌生人" 别留电话,别留微信。 她要么过来谢谢你,要么不过来。过来的概率:60%。 关键:爱马仕女见多了主动凑上来的男人,反向操作让她好奇。 第2步:用"专业领域的强势"建立吸引 加上微信后,不要每天问候、不要嘘寒问暖。 你要展示的是——"在你自己的领域里,你是真正的专家"。 可以是金融、可以是艺术、可以是某个小众爱好(红酒、雪茄、古董表)。 话术示范: "上周拍卖会上那幅[画家名]的画,最后成交价高了30%,挺意外的。你怎么看?" 目的:让她觉得"这个男人,跟我之前遇到的都不一样"。 第3步:做她的"灵魂出口" 爱马仕女的孤独,比谁都深。 她不能跟老公说真话(怕被算计)、不能跟闺蜜说真话(怕被传出去)、不能跟员工说真话(怕被看不起)。 她需要一个"安全的情绪出口"。 你要做的,就是**"让她在你面前,可以做一个普通女人"**。 话术: "在我面前,你不用是XX太太,也不用是XX董事。你就是你。" "你想哭就哭,我不会到处说,也不会觉得你脆弱。" 这句话杀伤力太强了。 她可能会在你面前第一次哭出来。 第4步:临门一脚 最佳时机:她跟老公吵架、家里出事、或者生日没人陪的时候。 地点选择极其重要: ❌ 不要去她常去的会所、酒店(怕被熟人看到) ✅ 要去一个**"她从来没去过的小众地方"**——比如一家小型的私厨、一个郊区的民宿、一个朋友的画室 话术: "今晚我带你去一个地方,没人认识你,你可以放空一晚上。" 爱马仕女最吃**"逃离感"+"私密感"**。 总投入:5000-2万。 (但回报极高,一旦得吃,长期关系建立后回报远超投入) ⚠️ 避坑 ❌ 不要装富:你戴个假百达翡丽,她一眼看穿,立刻拉黑。 ❌ 不要要钱、不要暗示自己缺钱:一次都不行,一次就死。 ❌ 不要碰她家庭:她老公、她孩子、她家族,永远不要打听。 ✅ 要做"她的秘密花园":她在你这里,能找到她生活里没有的所有东西。 五、实战案例:朋友阿琛的"跨阶层得吃" 姐有一个朋友,叫阿琛,他很擅长这个打法,32岁,做私募的,月薪3万左右,长相7分。 他用姐这套**"消费分层SOP"**,一年内,3个阶层各得吃一个: Case 1:拼多多女 目标:25岁,新媒体小编,月薪7K 打法:带她去吃苍蝇馆子+IKEA拍照+周末免费艺术展 周期:3周得吃,总投入:800块 Case 2:山姆女 目标:31岁,互联网产品经理,月薪3万 打法:山姆搭讪+周末爵士吧+突然送她一束尤加利叶 周期:5周得吃,总投入:4000块 Case 3:爱马仕女 目标:38岁,企业主太太 打法:酒店lobby反向搭讪+艺术品话题切入+郊区民宿"逃离感" 周期:3个月得吃,长期关系,每月固定见2次 关键洞察:阿琛跟姐说,3个女人最大的共同点是——"她们都在你面前哭过"。 记住,得吃的本质,从来不是性,是"情感缺口的填补"。 六、姐的终极心法 兄弟们,写到这儿,姐要把这一期的核心点睛之笔送给你: 3类女人,3个核心关键词: 拼多多女:给她**"她没见过的世界"** 山姆女:给她**"她不需要计算的瞬间"** 爱马仕女:给她**"她久违的普通女人感"** 别跨阶层乱打——姐见过太多兄弟,用追拼多多女的打法去追爱马仕女,结果被当成屌丝拉黑;用追爱马仕女的打法去追拼多多女,被嘲笑装大。 精准识别,精准打击。 七、避坑总警告 法律红线:未成年、强迫、灌醉,碰一个进去一辈子。 资产红线:爱马仕女的老公可能是某某老板,得吃可以,别留把柄。 情感红线:所有阶层的女人,都不要动真情。她们要的不是你的真心,是她们缺的那块情绪价值。 八、写在最后 兄弟们,这篇文章姐写得很累,因为它触碰了这个时代最敏感的两根神经——阶级和性别。 但姐想告诉你的,从来不是"如何PUA女人"。 姐想告诉你的是: 这个时代,每个阶层的女人,都有自己的孤独。 拼多多女孤独于"没人带她飞"。 山姆女孤独于"没人让她停下来"。 爱马仕女孤独于"没人看见真实的她"。 你能精准地填补她的孤独,她就回报你一段美好的时光。 这是公平的。
显示更多
0
64
242
23
转发到社区
我的好伙伴只有高中学历,他解决了我们在币安当一名很烂的做市商都无法盈利的问题,他居然解决了,他简直是我人生中见过的大天才之一! 这是我们第一次在币安高频做市交易盈利,而我们只是一群不知名的小人物,而我们在币安高频做市商领域绞肉机可以活下来了。 下一站hyperliquid 与lighter,我们来了! My good friend, who only has a high school diploma, solved the problem that even we, as terrible market makers on Binance, couldn't make a profit. He actually solved it! He's practically one of the greatest geniuses I've ever met! This is the first time we've profited from high-frequency market making on Binance, and we're just a bunch of nobodys. Yet, we've survived the meat grinder of Binance's high-frequency market maker arena! Next stop: HyperLiquid and Lightner, here we come!
显示更多
Git 常用命令速查: 1.git add:添加到暂存区(相当于先把文件放进“待提交清单”) 2.git commit:提交更改(给当前代码存一个快照) 3.git push:推送到远程仓库(把本地代码上传到 GitHub) 4.git fetch:拉取远程更新(只下载,不改本地代码) 5.git merge:合并分支(把另一条分支的代码合进来) 6.git pull:拉取并合并代码(同步远程最新内容) 7.git diff:查看未提交改动(看看哪些代码被改了) 8.git diff HEAD:对比当前与最新提交(查看改动差异) 9.git status:查看当前状态(哪些文件改了、哪些待提交) 10.git branch:查看分支(当前有哪些开发分支) 11.git checkout:切换/创建分支(进入另一个开发环境) 12.git log:查看提交历史(查看之前提交记录) 13.git stash:临时保存修改(先把当前工作藏起来) 14.git rebase:变基提交(整理提交顺序,让记录更干净) 15.git reset:回退版本(撤销到之前某次提交) 16.git revert:创建新提交撤销修改(安全撤回某次改动) 17.git cherry-pick:选择性应用提交(只拿某一次提交过来) 18.git bisect:快速定位 bug(自动帮你找出问题提交) 19.git init:初始化仓库(创建一个新的 Git 项目)
显示更多
经过几天使用,我可以毫不夸张地说:Rebased 就是目前最强的 Git 图形化客户端。 用过 JetBrains 系列 IDE 的朋友都知道,它的 Git 功能体验非常好——尤其是 Diff 功能。但这几年 JetBrains 在 AI 编程领域一直原地踏步,导致很多人转投其他工具,可它的 Git 体验却始终让人念念不忘。 一位大神直接基于开源的 IntelliJ Community 版,把所有开发语言相关功能全部砍掉,只保留 Git 功能,再做了大量 UI 优化,打造出了这个史上最强 Git 客户端——Rebased。 对已经习惯 JetBrains 生态的人来说,用它几乎是零学习成本,打开就是熟悉的味道。 亮点功能特色: - 完全开源(Apache 2.0 协议),免费使用、可随意二次开发 - 顶级 Diff / Review 体验(JetBrains 标志性优势) - 完整的 JetBrains VCS 工具窗(Commit、Git Log 图表、Branches 面板) - 交互式 Rebase 编辑器 + 视觉化冲突解决器 - 内置全文搜索 - 内置终端(支持多 Tab) - 原生支持 Git Worktree - 与 IntelliJ 100% 一致的快捷键和操作流 唯一的缺点是内存占用比纯轻量 Git 工具稍大,但依然远低于 JetBrains 完整 IDE。 多 Tab 终端 + Git Worktree,再搭配 Claude Code,Amp 这些工具,它已经能替代现在一堆类似 Superset 的 “Agentic IDE” 的工具了。 感谢 @ayanamist 分享
显示更多
0
45
1.3K
164
转发到社区
【跨境电商卖家回款】 别家U卡:提现慢、汇率暗扣、还要交一堆交易证明 MiPay:U进U出,2%+2U透明手续费,T+1到支付宝 ✅ 支持Shopify、亚马逊、Etsy等平台绑卡付款 ✅ 广告费、物流费、采购款一键直付 🔗 开店必备: 💬 卖家交流群: [Cross-border E-commerce Seller Payment Recovery] Other U-cards: Slow withdrawals, hidden exchange rate deductions, and a bunch of transaction proofs required. MiPay: U-in, U-out, 2% + 2U transparent handling fee, T+1 to Alipay. ✅ Supports bank card binding for payments on platforms like Shopify, Amazon, and Etsy. ✅ One-click direct payment for advertising fees, logistics fees, and procurement costs. 🔗 Essential for opening a store: 💬 Seller communication group:
显示更多
GTC 2026 preview: 从Groq生态位看AI异构推理(Heterogeneous Inference)新时代 Groq的SRAM路线的生态位在哪里?SRAM会不会替代HBM路线? Nvidia如何整合groq到现有的产品线?是技术整合还是产品线整合?收购之后会给groq LPU产品带来怎样的升级? 这里尝试从基本原理出发去拼凑一个逻辑链 —-------------------------------------------- 先从first principal说说groq的设计哲学开始:groq本质上是一个compiler first走到极致的路线而不是SRAM first路线,SRAM路线只是副产品 相对于CPU针对通用workload的设计不同,AI 推理workload的特征在于确定性(deterministic)更高,基本没有data-dependent branching,tensor shape固定,memory access pattern确定 当Groq带着这个新特征重新审视 hardware-software interface,去问"什么应该在编译时做,什么应该在运行时做"。对于 AI 推理这个 workload,答案是:几乎一切都可以在编译时做 这就是Groq最疯狂而独特的地方:完全确定性编译器(fully deterministic compiler),compile精确到每个时钟周期,完全精确带来极致的效率。在编译的时候就需要考虑到硬件在运行的每个时刻的所有状态,扮演一个全知全能的上帝,就可以避免硬件资源的浪费,而要做到这一点,必须要做到极致的确定性,也就是说,LPU里每一个计算,访问存储,通信的延迟,都需要精确到clock cycle,这对compiler来说是非常复杂的 AI workload更高的确定性,以及groq的完全确定性编译器优先路线很自然的避免了VLIW的弱点(内存行为以及branch行为不可预测),放大了VLIW的优点。那么下一步要提高效率和并行度,VLIW 式的编码格式就是一个自然推论—既然编译器要控制每个功能单元每个 cycle 做什么,那指令格式当然就是一个宽指令里打包多个 指令会得到更高效率,这就是 VLIW 在groq的芯片里,不做乱序执行/speculation,大幅简化硬件(instruction dispatch仅占<3%面积),把复杂度移到静态compiler上,这正是VLIW思想的精髓 既然要让编译器做确定性的 cycle-accurate 调度,那么硬件里所有不确定的因素都要消除,比如arbiter,crossbar, replay,这些有自主算法在运行时决策的部分都砍掉 memory latency 也必须是确定的,所以一切 cache 和 DRAM都是要砍掉的,cache也要换成scratchpad SRAM,因为cache replacement 策略是runtime决策的,不确定,必须换成软件控制的scratchpad,地址映射完全由compiler控制,保证确定性 通信也必须精确到cycle,发送和接收指令就是软件协调好执行的时刻,并没有传统的“我要发一个包给你,请分配好内存”这类操作,而是同步地根据一份时间表严格执行SRAM 的分配和收发操作,这个时间表是compiler已经决定好的,硬件只需要执行就行了 完全确定性compiler也带来了芯片节点之间互联通信overhead的极低延迟,这可能是groq确定性架构最被忽视的最大优势,毕竟传统互联架构里Packet Routing、Arbiter Contention 和 Buffer Queuing,这些是延迟波动的重灾区 这就是为什么说,groq其实并不是一个native SRAM first的技术路线,也不完全算是VLIW first的技术路线,而是compiler first的技术路线,更准确的说,完全确定性compiler是整个groq架构的核心 只是因为确定性compiler的原因,所以在核心decode阶段无法使用HBM/DRAM带来的不确定性,SRAM only成为了必然的选择。这也是为什么说Groq更像是compiler first路线。 —-------------------------------------------- groq被收购之后最直觉的第一反应: groq确定性compiler技术路线有没有可能用在Nvidia现在的GPU+HBM体系上? 不能 原因有两个: 1. HBM/DRAM的物理特性和带宽优化决定了它天生带有不可预测的延迟,无法和deterministic compiler兼容 2. Nvidia的SIMT路线和Groq的VLIW/compiler first的哲学本质是有冲突的 DRAM为什么充满了不确定性 1.refresh操作每隔一段时间tREFI就会刷新一次cell上的电量,阻断bank访问,这是由DRAM cell物理特性决定的。而这个操作会随着温度的变化,refresh的频率也会变化 2. 为了最大化利用DRAM带宽,controller会做很多优化,最典型的是batch scheduling:把同一个page的traffic都放在一起减少page miss,同时让读写尽可能接触更多的bank,以及尽可能减少read和write switching 这些动态优化都是real time发生的,基本不具备可预测性 3. system上对DRAM的优化,比如bank address hashing,让compiler静态提前定位某段data难度太大,落实cycle确定性的复杂度太高 其实这些不确定性也是能解决的,代价就是放弃大部分的优化策略,大幅降低DRAM的efficiency和利用率。groq自己其实也对这方面做过探索,他们曾经做过一个确定性DRAM的专利,但工程上的实现是不现实的,这也是groq选择SRAM-only的核心原因之一。 所以确定性compiler技术路线用在DRAM上不是一个yes or no的问题,而是这不是一个好的选择,因为这意味着HBM的efficiency和BW都要大打折扣,而且是结构性无法避免的损失。 这几乎意味着要用compiler去重写一个完整的memory controller,因为确定性dram本质上是compiler software defined memory controller,这个SW controller会非常难做,复杂度极高,而且每一代memory迭代都要大幅更新compiler里的结构,在工程资源上是不现实的。而且每一代DRAM,每一家DRAM 供货商都需要调试 ,这在验证和validation上是一个nightmare --------- 为什么Nvidia的SIMT路线和Groq的VLIW/compiler first的哲学本质是有冲突的 这两套体系对同一个问题给出了相反的回答:运行时的不确定性,Groq是compiler阶段直接消灭所有不确定性,Nvidia选择了用warp switching去隐藏不可预测的延迟 Nvidia GPU 建立在 SIMT(单指令多线程)和硬件层线程调度器(Warp Scheduler)上。当一个warp因为访存而stall的时候,硬件warp scheduler立刻切换到另一个ready的warp继续执行,把stall的延迟藏在其他warp的计算里。这整套机制的前提恰恰是:延迟是不可预测的,所以需要足够多的并发线程来统计性地填满pipeline 如果要用确定性的编译器去接管,等于把 Nvidia GPU 里面最核心的硬件调度单元全盘废弃:如果你不需要多warp轮转,你也不需要那么大的register file 实际在历史上,AMD从TeraScale(VLIW)到GCN(scalar SIMT)的架构转型,正是GPU领域一次大规模的VLIW→SIMT迁移:当workload变得不够可预测时,VLIW的compiler负担太重,应该把调度权还给硬件 所以在原架构上引入确定性compiler应用到Nvidia现有的技术路线,是很难融合。这不是compiler能不能改的问题,是两套架构从第一性原理上就走了相反的方向。 所以说,Groq在Nvidia的唯一出路,就是独立的面向low latency decode的专用产品。 —-------------------------------------------- Nvidia收购Groq之后,就引出了第二个问题: Nvidia会给Groq带来什么样的新提升? 那么首先看看groq的瓶颈在哪里,简单的说 1. SRAM容量太小,无法容下大模型的参数量+kv cache 2. 推理decode主要瓶颈不在SRAM 80T/s的速度而在于interconnect延迟(占80%) 3. 对于Prefill这样的compute bound task速度较慢 groq的主要架构基本上是17~18年就完成了,那是CNN的时代,架构也是以CNN/LSTM为主要的target,当时测试benchmark都是ResNet50,SRAM容量是绰绰有余的 但是进入LLM时代,单个TSP计算卡230MB SRAM就显得不够看了,一个LLAMA 70B模型的参数量占内存就相当于3000个ResNet50,再加上因为上下文long context日益膨胀的KV cache,scale out就成了唯一的出路 于是一个70B模型的推理就需要576卡的集群,采用16个Pipeline并行 (PP)和36个tensor 并行 (TP),80层的大模型切成16级流水pipeline串行,每级横向5层MLP分给36个卡并行推理 16级流水pipeline串行(PP),每级流水到下级流水的通信overhead延迟就要 X16。实测中PP和TP之间的通信延迟占据了80%以上的总延迟,特别是PP延迟,占据了50%以上的总延迟,通信延迟成为了主要瓶颈 Groq计算卡对decode阶段的memory bound很友好,但是片上巨大的SRAM也挤压了compute的面积,导致prefill阶段耗时很高。融入Nvidia产品线之后,Groq产品完全可以扬长避短,只做自己擅长的decode部分,避免prefill阶段的短板 Nvidia带来的最重要的提升,可能是通过工艺的提升,以及hybrid bonding技术(类似AMD 3D V-Cache),扩大Groq LPU SRAM的容量,比如光是14nm到3nm的工艺提升,SRAM就能从230MB扩大到500MB,如果以后引入3D SRAM,容量还能翻倍 SRAM变大之后,原来576个LPU能完成的70B模型推理,现在只需要256个LPU了。猜测也许可以用32个tensor并行 X 8 个流水pipeline串行,pipeline interconnect延迟能直接减半。 所以Nvidia能带来的主要提升可能是,通过扩大SRAM的容量,减少scale out卡数,从而减少通信延迟时间,提高token速度 —-------------------------------------------- Groq的SRAM路线专用产品进入Nvidia产品线,引出了第三个问题: SRAM路线会颠覆HBM路线吗? 不会。 SRAM路线本质上是用十倍的成本换几倍的速度,只能适用于一部分愿意为低延迟付出高额溢价的市场。AI硬件市场的主旋律仍然是比拼TCO(total cost ownership)成本 做一个简单的成本核算就清楚了 以LLAMA 70B模型为例,算上KV cache,Groq需要576张计算卡组成集群。Groq计算卡零售价大约是每颗2万美元(groq CEO说实际售价远低于,那就按2000美元算),576卡就是超过110万美元的硬件成本。而2张H100就能跑同样的模型,成本不到10万美元。成本差距是一个数量级。 Groq于是转而卖token服务,Groq的API定价确实便宜,但这是因为两个原因叠加: 第一,Nvidia的GPU云服务商通常在硬件成本上加倍的margin卖出去; 第二,Groq自己是在亏钱运营的。2025年全年,Groq用LPU做大模型推理、对外卖API的业务,营收大约4000万美元,成本却是6000万美元,毛利-50%。Groq的便宜token价格不是因为SRAM的经济性更好,而是因为VC在补贴。 那么有人愿意为速度付溢价吗? 有。 Claude Opus 4.6 Fast模式就是一个很好的市场信号:输出速度提升2.5倍,定价直接从$5/$25涨到$30/$150 per million tokens,6倍的价格,估计是牺牲了batch带来的速度提升。 所以这部分市场是真实存在的,SRAM路线在这里有它的生态位。 但这个生态位有多大?要看ML workload的分类。不同的workload对硬件的侧重点要求差距巨大: 推理的Prefill阶段对带宽要求低但算力要求高,推理decode阶段则是反过来。R&R(Ranking & Recommendation)对算力和带宽要求都不高但对存储的容量要求巨高 (见附图) 对延迟敏感的推理workload,decode阶段对Memory bandwidth要求高,是SRAM路线的优势领域(图中红色线),主要是real time/interactive LLM:chat、copilot、agent这类需要实时响应的场景。 特别是reasoning model,SRAM路线带来的极致体验是很夸张的:H100要两三分钟跑完一reasoning,cerebras十秒就搞定了 这部分注重极致推理速度的市场有多大,我暂时没有找到一个详尽的调研,看到一个Hyperscaler的说法目前是10%左右 但是agentic flow workload,常用的agentic框架做profiling,比如SWE-Agent, LangChain, Toolformer,CPU最长可以占到90%的E2E端到端延迟,throughput瓶颈也更多的卡在CPU, 这些加起来通常远大于单次decode的延迟,SRAM路线速度优势被削弱。 而更大体量的workload:batch inference、offline processing、ranking、recommendation对延迟没有那么敏感,throughput和cost per token才是唯一的指标。这部分市场SRAM路线完全没有成本上的竞争力 H100/B200相当于大巴车,装的人多(batch processing),每个人的车票钱很便宜,但是慢悠悠。 Groq/cerebras相当于是法拉利,极致的速度体验,但是装的人少,人均票价是大巴车十倍甚至以上。 长期来看,SRAM的成本劣势是结构性的,不会随时间收敛。6T SRAM cell天然比1T1C DRAM cell贵,这是物理决定的,和工艺无关。而且SRAM scaling已经慢了下来,从N5到N3E,SRAM单元面积几乎没有缩小 即便是速度优势,SRAM路线的缺陷在于访问速度已经接近工艺极限,很难跨代提升。特别是HBM的速度每代都在指数上升的情况下,SRAM 80T/s的速度优势很难长久维持。十年前这个路线刚刚兴起的时候,SRAM速度比HBM快了两个数量级简直是降维打击,但现在的速度差已经不到一个数量级(Rubin HBM4 22TB/s),再过十年,两者的速度可能拉不开差距了。 所以结论很清楚:SRAM不会颠覆HBM,但它在低延迟、低batch、实时推理这个细分市场里有不可替代的价值。但长远来看,随着HBM速度指数上升的背景下,SRAM优势也会逐渐慢慢越小。 —-------------------------------------------- 写到这里,也许我们可以把这些碎片拼凑出Nvidia收购Groq之后计划的下一步雏形: 异构推理的新时代开启了 以后的推理workload本身已经分化,无法再用单一架构的最优点覆盖,体系结构最重要的是tradeoff,是尺度范围。一个架构形态在合理的tradeoff以及特定workload下可能惊为天人,用多个架构形态去迎合不同种类的workload,就是异构计算的思想 2026 GTC的最大主题,就是异构推理的系统化。推理不会由单一硬件统一完成,而会被拆成 几个部分: 控制和调度/agent runtime层交给Vera CPU 针对long context的prefill交给CPX (Content Phase aXcelerator,一个专门为prefill的compute bound特性设计的计算模块) 小模型/低延迟/low batch decode交给SRAM路线的Groq LPU,256块LPU集群 高吞吐/高并发batch decode,HBM GPU仍然是主力 以及可能会被忽略的ICMS:inference context memory storage, kv cache已经是核心基础设施,以前的异构更多是计算异构,现在的异构已然延申到了缓存异构memory hierachy heterogenity(似乎改名成了CMX: context memory storage) LPU和GPU的分工,更可能成为 inference stack 里两个不同的tier,小模型/低延迟/low batch都交给LPU,长context/high batch交给HBM GPU 目前CPX什么方式和LPU/GPU连接还尚不清楚,整个工作流程大概是,CPU做控制和调度,CPX Prefill 跑完得到几十 GB 的 KV Cache, 分配到 Groq LPU阵列SRAM,或者分配到HBM GPU,开启Decode流程 其实还有一种更大胆的猜想:如果引入speculative decoding,那么LPU完全可以跑通常尺寸较小的草稿模型,在LPU上速度极快,HBM GPU作为主力去验证草稿模型即可,这样的异构推理结构,可以让token rate大大加速,在某些场景下翻倍也是没问题的(比如代码任务模式固定,小模型很容易猜对语法,所以加速效果很好) 当 Nvidia 的眼光越过GPU,走向整个 Agentic 流程的系统级优化时,追赶它的难度已经不在一个单一维度了。以前 Nvidia 步子迈得大,靠的是 GPU 架构和参数的单点暴力跃升;而现在,随着CPX,LPU,ICMS加入异构推理,它是从“数据中心即一台计算系统”的系统视角出发,从Agentic flow的角度做底层的异构编排。 无论是系统的复杂度,还是软件栈的工作量(Dynamo/ICMS/CMX),Nvidia 迈出的这一大步,直接把竞争门槛从“做出一颗好芯片”拉高到了“定义一整套异构系统来做普适加速计算解决方案“ —------------------------------------------------------- 不由得感慨,每一次计算范式的改变,半导体都会带来一波新的startup热潮,但当软件/应用形态逐渐收敛,最后还是变成了大厂通过收购把功能做大做全,参数做的更高,系统深度整合的更好更全面,成本更低,功耗和跑分更优秀,让startup慢慢失去独立生存的空间 比如移动互联网时代早期,也是群雄并起,有做AP应用处理器,独立基带芯片的,ISP的,GPU的各种小公司。但最后的赢家,都是从到后来把GPU,ISP,modem全都做进SoC,并且完成系统级整合的异构计算平台。 苹果收购PA semi的CPU,英飞凌的modem,掏空Imagination的GPU;高通收购ATI的mGPU,Atheros的Wifi,Nuvia的CPU,CSR的蓝牙/DSP,都是典型例子 异构推理的复杂度越来越高,能做系统级整合的公司会更有优势,这和移动SoC时代的逻辑一模一样。AI时代nvidia收购arm(失败),收购Mellanox,收购groq,只是这个新历史轮回的开始
显示更多
0
31
292
78
转发到社区
BONK一开年就开始搞事,重点打造Bonkx+Bonktrade 很多meme币的生命周期很短,传播快,热度一过就熄火。 我很欣赏BONK的点是,它把 meme 的传播能力当获客,绑定非常多的生态产品,并能靠产品创造强现金流自我供血,这让它的生命周期,比普通 meme强得多。 (TenX 那篇长文也把 BONK 说得很清楚 先说 BonkX: @BonkX_SOL是 BONK 在做的支付/账户产品,官方叫它Solana 新银行,也有说叫生活方式新银行。 理解他们做的事:给普通人做的“账户 + 卡 + 出入金”,再叠一层 $BONK 的消费奖励,把法币和 Solana 的链上资金流打通。 他们想做的目的也很明确:把 BONK从Meme往日常能用的产品推进。用返现、积分、NFT和真实消费权益把用户的日常支付变成 BONK 生态的增长入口。 📍目前还是Waitlist(等候名单)阶段:填邮箱就能报名,网站还有任务系统,做任务拿积分、冲榜拿奖励。 登记入口: BonkX主要集成这些功能: IBAN 账户:法币 + 加密一起管(收款/资金管理) 借记卡:稳定币返现,消费拿 $BONK 奖励 出入金:法币 -Solana 快速结算 规划中:薪资服务 前不久的播客里,Branch 说得很明确:BONKX 是 BONK 生态里第一个被正式打造的官方品牌。 按照我的理解是BonkX 的核心思路是:把加密资产包装成更贴近大众的银行级体验,用账户、卡、出入金解决能不能用、好不好用,再用 $BONK 奖励解决为什么用、为什么留。 这其实是在做现实世界的支付入口。这一步走通了,BONK 的叙事就不再只靠 meme 情绪,而是靠真实使用场景。 我看好 BONK 今年这套打法,不是因为它是 Meme,反而是因为它开始不按 Meme 的套路玩了: 1、有现金流:BONK 已经不是情绪 Meme,它有现金流,2025 年仅BONK.fun+ BONKbot 两个核心产品,协议收入就高达8300 万美金。 2、能反哺代币:更关键的是这些收入是会通过回购、销毁、金库累积回到代币层,把 BONK 变成一个能自我供血的资产,这是长期价值支撑的来源。 3、代币全流通有基本面: $BONK 现在已经全流通,总代币量88万亿,市值10亿左右,叙事干净,同时生态项目覆盖面也越来越广,接下来重点推的 BonkTrade 也是其中一环。另外,当 BONK 链上持币地址达到 100 万时,计划销毁 1 万亿枚BONK,目前接近99万地址。 从这一套动作就能看出来:BONK 不想只当 Meme,而是要在 2026 走机构化路线,而 BONKX 就是把 BONK 带进消费场景的关键产品。 BONK 今年同时推 BonkTrade + BonkX:一个抓交易流量,一个抓日常留存。 这种用产品赚钱、再反哺代币的逻辑,比任何都靠谱。 关注bonk的中文区伙伴可以关一下@bonk_inu_zh tg: 平时会送很多周边
显示更多
0
21
32
2
转发到社区