搜索 brunch 相关的推文

小番茄不是Tomato@cypto_zen

2026.03.11 15:17

Homemade brunch time 🥘 最近行情不好醒了就琢磨「今天吃什么」吃饱了就开始想「明天吃什么」人生两大课题，我已经拿捏了

0

11

27

0

转发到社区

涂涂姐@SH1oUn

2026.05.20 14:31

涂涂姐教你约会系列第九期从拼多多到爱马仕——3类"消费分层女"的精准猎杀指南今天这期，姐要给你们讲一个99%的情感博主都不敢碰的话题： "如何根据女人的消费水平，选择不同的得吃打法。" 姐知道，这个话题一出来，键盘侠们就要跳出来骂"物化女性""消费主义""三观不正"。但兄弟们，姐告诉你一个残酷的真相： "你追一个用拼多多的姑娘，跟追一个背爱马仕的贵妇，用的是完全不同的两套打法。你要是搞混了，前者觉得你装大、后者觉得你寒酸，两边都得吃不到。" 姐在这行混了8年，复盘过上千个学员的案例，得出一个铁律：看一个女人的微信支付流水，比看她朋友圈准10倍。她在哪里花钱、花多少钱、花给谁，比她写的那些"emo文学"诚实100倍。今天这篇，姐就给你把3个消费阶层的女人，从画像到场景、从话术到道具、从SOP到避坑，一次性拆透。一、为什么"消费分层"是得吃的第一性原理？兄弟们，先听姐说一个底层逻辑：女人的消费习惯，反映的是她的"情感缺口"。拼多多女：她省钱，不是因为穷，是因为**"她从小就被教育要省"。她最大的情感缺口是——"没人带她见过世面"**。山姆女：她精打细算地过中产生活，最大的情感缺口是——"老娘累死累活，没人给我提供情绪价值"。爱马仕女：她什么都不缺，最大的情感缺口是——"所有男人都看上我的钱，没人把我当女人"。得吃的核心，就是精准击中她的情感缺口。你给拼多多女讲爱马仕，她觉得你装；你给爱马仕女讲拼多多，她觉得你low。 3类女人，3套打法，错位就是死局。二、第一类：拼多多女（消费降级型） 🎯 画像识别年龄：22-28岁职业：小镇做题家、应届生、月薪5K-8K的小白领、二三线城市文员特征：朋友圈晒拼多多9.9包邮的小裙子美妆都是国货平替（花西子、完美日记）周末娱乐：刷短视频、看网文、点蜜雪冰城朋友圈背景图常年是"努力变富""脱贫攻坚" 💔 情感缺口 "没人带我见过世面。" 她不是不想要好东西，她是从来没人带她体验过好东西。她的男朋友（如果有的话）大概率也是个屌丝，俩人吃9块9的麻辣烫、看免费电影、过情人节互送一杯瑞幸。她对"小确幸"的渴望，比谁都强。 🗺️ 出没场景蜜雪冰城、瑞幸咖啡（点单的姑娘）优衣库、Zara打折区地铁通勤路上戴耳机看小说的周末一个人逛IKEA的（她其实不买，就是去蹭氛围） 💎 实操SOP 核心打法：用最低的成本，给她"她从未体验过的东西"。第1步：低成本搭讪（建立"有趣"人设）场景：周末的IKEA 她在样板间里坐着发呆，你走过去： "这个沙发我家就有一个，便宜又舒服，但其实你坐久了腰会疼。要买的话我推荐你看那边那款，差不多的价格但更耐用。" 关键点：用"懂行"+"为她省钱"建立信任。拼多多女最吃这一套——"你帮我省钱了 = 你不是骗子"。第2步：用"小惊喜"降维打击加了微信后，别带她去吃高端餐厅，那会吓跑她。正确打法：带她去一个**"她没去过的便宜小馆子"**（比如苍蝇馆子、本地老字号）带她去一个**"免费的好地方"**（艺术展、独立书店、城市观景台）给她拍**"她没拍过的好看照片"**（用富士相机或者手机调色，朋友圈出片）话术： "这家店在这条巷子里藏了20年，我朋友带我来过一次，吃完我就忘不掉了。今天带你来尝尝，比那些网红店好吃100倍。" 核心：人均50的小馆子 + 你的"内行感" = 她的"被特殊对待感"。第3步：用"成长感"绑定她拼多多女最大的渴望是**"变得更好"**。你要扮演一个**"带她成长的男人"**：推荐她看几本书（《认知觉醒》《纳瓦尔宝典》）教她用Excel、PPT 跟她聊职业规划、副业、理财话术： "你这么聪明，不应该只做现在这份工作。我跟你讲讲我朋友的故事，他从月薪5千做到现在……" 目的：让她觉得"跟着你，我能变成更好的自己"。第4步：临门一脚最佳时机：她升职、加薪、或者考过了某个证。约她出来庆祝，第一次带她去一个"稍微好一点"的地方——比如人均200的西餐厅、有夜景的酒吧。她会被"质感"震到，那一晚，你就能得吃。总投入：不超过1500块。 ⚠️ 避坑 ❌ 不要装大：你穿个假LV，她一眼能看穿，立刻拉黑你。 ❌ 不要嘲讽她的消费习惯："你怎么还用花西子啊"——这话出口你就死了。 ✅ 要做"踏实哥哥"：稳重、靠谱、有未来感。三、第二类：山姆女（中产精算型） 🎯 画像识别年龄：28-35岁职业：大厂中层、互联网产品经理、外企白领、医生律师特征：月薪2-5万，但每一分钱都精打细算周末必去山姆/Costco，囤一冰箱牛排和坚果穿lululemon瑜伽裤、背Longchamp饺子包朋友圈晒的是"今日健身打卡"、"亲手做的brunch" 用Notion管理生活、用Keep练瑜伽 💔 情感缺口 "老娘累死累活，没人给我提供情绪价值。" 这类女人，外表光鲜、内心枯竭。她每天996、健身、做饭、保持身材，活得像一个**"高执行力的机器"**。她的男朋友（如果有的话）也是个加班狗，俩人一周见不了两次，亲密关系早就名存实亡。她最渴望的，不是钱、不是包，是一个"能让她暂时关掉大脑"的男人。 🗺️ 出没场景高端健身房（SPACE、超级猩猩）山姆会员店周末下午高端轻食店（wagas、gaga鲜语）周末早上的Brunch店一个人去看话剧、音乐会 💎 实操SOP 核心打法：做她的"情绪解压阀"。第1步：用"专业感"破冰场景：山姆会员店她在牛排区挑选，你走过去： "这块M5的肉其实没那么值，今天的M3反而更新鲜。你是煎着吃还是低温慢煮？煎的话我推荐你买那个去骨眼肉。" 关键点：山姆女最吃"懂行+有品味"。她加你微信的概率，80%。第2步：建立"高质量陪伴"人设加微信后，别天天找她聊天，那是屌丝行为。正确打法：一周聊2-3次，每次聊20分钟聊的内容必须**"有营养"**：行业洞察、读书心得、运动数据适当**"消失"**——周末别找她，让她自己想你话术示范： "今天看到一份[行业报告]，里面提到[某个观点]，跟你上次聊的事挺有关，发你看看。" "刚跑完10公里，配速5'30''，破纪录了。你呢？最近有没有抽空去练？" 目的：让她觉得"你是一个跟她平等的、有自己生活的男人"。第3步：用"反精算"打动她山姆女的痛苦在于**"什么都要计算"**——卡路里、KPI、性价比。你要做她的"反精算时刻"。突然送她一束**"她不会自己买的花"**（不用贵，500块的尤加利叶就行）临时约她"今晚不加班，陪我去看个livehouse" 周末早上7点发她："起来，带你去吃这个城市最好吃的牛肉面，开车40分钟，值。" 关键：制造"非理性的小冲动"。她平时所有决定都是"计算最优解"，你给她一个"不计算的瞬间"，她就沦陷了。第4步：临门一脚最佳时机：她加完一次大班、做完一个大项目、或者跟同事吵架后。约她去一个**"高质感但不浮夸"**的地方——比如威士忌吧、小型爵士酒吧、深夜的天台餐厅。让她喝两杯，听她吐槽工作。话术： "你已经撑得太久了。今晚不用做'XX经理'，就做你自己。" 这句话出来，80%的山姆女会湿眼眶。剩下的，你懂。总投入：3000-5000块。 ⚠️ 避坑 ❌ 不要送奢侈品：她自己买得起，你送了显得寒酸。 ❌ 不要谈未来：山姆女只活当下。 ✅ 要"有自己的事业"：她不要凤凰男，要"势均力敌"的男人。四、第三类：爱马仕女（贵妇/高净值型） 🎯 画像识别年龄：30-45岁职业：富二代、企业主太太、高管夫人、独立女企业家特征：包是Birkin/Kelly起步，鞋是Manolo 朋友圈晒的是马场、画廊、私人飞机喝单一麦芽威士忌，不喝鸡尾酒私教、瑜伽老师、营养师都是私人定制朋友圈三天可见，看不到真实生活 💔 情感缺口 "所有男人都看上我的钱，没人把我当女人。" 这是姐反复强调的一个点：爱马仕女最缺的，不是钱，是"被当成普通女人对待"。她身边的男人分两种：舔狗——巴结她、讨好她、想吃软饭更有钱的老男人——把她当资产配置她从来没有遇到过一个"真正把她当女人"的男人。 🗺️ 出没场景私人会所（华谊兄弟、上海长宁的）高端马术俱乐部画廊开幕式、艺术品拍卖会五星级酒店的lobby bar 商务舱、头等舱 💎 实操SOP 核心打法：反向降维打击——你越"不在乎她的钱"，她越想征服你。第1步：用"反向疏离"建立人设场景：五星级酒店lobby bar 她一个人坐在角落喝威士忌。绝对不要主动凑过去搭讪。正确打法：你坐到吧台另一头，点一杯比她更专业的酒，然后假装看书或者处理工作。 10分钟后，让侍者送她一杯**"你点的那款"**，附一张小纸条： "你点的那款其实有点甜，这一款更适合你的气质。——隔壁的陌生人" 别留电话，别留微信。她要么过来谢谢你，要么不过来。过来的概率：60%。关键：爱马仕女见多了主动凑上来的男人，反向操作让她好奇。第2步：用"专业领域的强势"建立吸引加上微信后，不要每天问候、不要嘘寒问暖。你要展示的是——"在你自己的领域里，你是真正的专家"。可以是金融、可以是艺术、可以是某个小众爱好（红酒、雪茄、古董表）。话术示范： "上周拍卖会上那幅[画家名]的画，最后成交价高了30%，挺意外的。你怎么看？" 目的：让她觉得"这个男人，跟我之前遇到的都不一样"。第3步：做她的"灵魂出口" 爱马仕女的孤独，比谁都深。她不能跟老公说真话（怕被算计）、不能跟闺蜜说真话（怕被传出去）、不能跟员工说真话（怕被看不起）。她需要一个"安全的情绪出口"。你要做的，就是**"让她在你面前，可以做一个普通女人"**。话术： "在我面前，你不用是XX太太，也不用是XX董事。你就是你。" "你想哭就哭，我不会到处说，也不会觉得你脆弱。" 这句话杀伤力太强了。她可能会在你面前第一次哭出来。第4步：临门一脚最佳时机：她跟老公吵架、家里出事、或者生日没人陪的时候。地点选择极其重要： ❌ 不要去她常去的会所、酒店（怕被熟人看到） ✅ 要去一个**"她从来没去过的小众地方"**——比如一家小型的私厨、一个郊区的民宿、一个朋友的画室话术： "今晚我带你去一个地方，没人认识你，你可以放空一晚上。" 爱马仕女最吃**"逃离感"+"私密感"**。总投入：5000-2万。（但回报极高，一旦得吃，长期关系建立后回报远超投入） ⚠️ 避坑 ❌ 不要装富：你戴个假百达翡丽，她一眼看穿，立刻拉黑。 ❌ 不要要钱、不要暗示自己缺钱：一次都不行，一次就死。 ❌ 不要碰她家庭：她老公、她孩子、她家族，永远不要打听。 ✅ 要做"她的秘密花园"：她在你这里，能找到她生活里没有的所有东西。五、实战案例：朋友阿琛的"跨阶层得吃" 姐有一个朋友，叫阿琛，他很擅长这个打法，32岁，做私募的，月薪3万左右，长相7分。他用姐这套**"消费分层SOP"**，一年内，3个阶层各得吃一个： Case 1：拼多多女目标：25岁，新媒体小编，月薪7K 打法：带她去吃苍蝇馆子+IKEA拍照+周末免费艺术展周期：3周得吃，总投入：800块 Case 2：山姆女目标：31岁，互联网产品经理，月薪3万打法：山姆搭讪+周末爵士吧+突然送她一束尤加利叶周期：5周得吃，总投入：4000块 Case 3：爱马仕女目标：38岁，企业主太太打法：酒店lobby反向搭讪+艺术品话题切入+郊区民宿"逃离感" 周期：3个月得吃，长期关系，每月固定见2次关键洞察：阿琛跟姐说，3个女人最大的共同点是——"她们都在你面前哭过"。记住，得吃的本质，从来不是性，是"情感缺口的填补"。六、姐的终极心法兄弟们，写到这儿，姐要把这一期的核心点睛之笔送给你： 3类女人，3个核心关键词：拼多多女：给她**"她没见过的世界"** 山姆女：给她**"她不需要计算的瞬间"** 爱马仕女：给她**"她久违的普通女人感"** 别跨阶层乱打——姐见过太多兄弟，用追拼多多女的打法去追爱马仕女，结果被当成屌丝拉黑；用追爱马仕女的打法去追拼多多女，被嘲笑装大。精准识别，精准打击。七、避坑总警告法律红线：未成年、强迫、灌醉，碰一个进去一辈子。资产红线：爱马仕女的老公可能是某某老板，得吃可以，别留把柄。情感红线：所有阶层的女人，都不要动真情。她们要的不是你的真心，是她们缺的那块情绪价值。八、写在最后兄弟们，这篇文章姐写得很累，因为它触碰了这个时代最敏感的两根神经——阶级和性别。但姐想告诉你的，从来不是"如何PUA女人"。姐想告诉你的是：这个时代，每个阶层的女人，都有自己的孤独。拼多多女孤独于"没人带她飞"。山姆女孤独于"没人让她停下来"。爱马仕女孤独于"没人看见真实的她"。你能精准地填补她的孤独，她就回报你一段美好的时光。这是公平的。

显示更多

0

64

242

23

转发到社区

（二狗子）Dogquant 小狗量化@Dogquant0

2026.05.16 01:31

我的好伙伴只有高中学历，他解决了我们在币安当一名很烂的做市商都无法盈利的问题，他居然解决了，他简直是我人生中见过的大天才之一！这是我们第一次在币安高频做市交易盈利，而我们只是一群不知名的小人物，而我们在币安高频做市商领域绞肉机可以活下来了。下一站hyperliquid 与lighter，我们来了！ My good friend, who only has a high school diploma, solved the problem that even we, as terrible market makers on Binance, couldn't make a profit. He actually solved it! He's practically one of the greatest geniuses I've ever met! This is the first time we've profited from high-frequency market making on Binance, and we're just a bunch of nobodys. Yet, we've survived the meat grinder of Binance's high-frequency market maker arena! Next stop: HyperLiquid and Lightner, here we come!

显示更多

0

5

16

0

转发到社区

veyhon@veyhon

2026.05.09 15:18

Git 常用命令速查： 1.git add：添加到暂存区（相当于先把文件放进“待提交清单”） 2.git commit：提交更改（给当前代码存一个快照） 3.git push：推送到远程仓库（把本地代码上传到 GitHub） 4.git fetch：拉取远程更新（只下载，不改本地代码） 5.git merge：合并分支（把另一条分支的代码合进来） 6.git pull：拉取并合并代码（同步远程最新内容） 7.git diff：查看未提交改动（看看哪些代码被改了） 8.git diff HEAD：对比当前与最新提交（查看改动差异） 9.git status：查看当前状态（哪些文件改了、哪些待提交） 10.git branch：查看分支（当前有哪些开发分支） 11.git checkout：切换/创建分支（进入另一个开发环境） 12.git log：查看提交历史（查看之前提交记录） 13.git stash：临时保存修改（先把当前工作藏起来） 14.git rebase：变基提交（整理提交顺序，让记录更干净） 15.git reset：回退版本（撤销到之前某次提交） 16.git revert：创建新提交撤销修改（安全撤回某次改动） 17.git cherry-pick：选择性应用提交（只拿某一次提交过来） 18.git bisect：快速定位 bug（自动帮你找出问题提交） 19.git init：初始化仓库（创建一个新的 Git 项目）

显示更多

0

1

0

转发到社区

老鬼@laogui

2026.05.08 14:46

经过几天使用，我可以毫不夸张地说：Rebased 就是目前最强的 Git 图形化客户端。用过 JetBrains 系列 IDE 的朋友都知道，它的 Git 功能体验非常好——尤其是 Diff 功能。但这几年 JetBrains 在 AI 编程领域一直原地踏步，导致很多人转投其他工具，可它的 Git 体验却始终让人念念不忘。一位大神直接基于开源的 IntelliJ Community 版，把所有开发语言相关功能全部砍掉，只保留 Git 功能，再做了大量 UI 优化，打造出了这个史上最强 Git 客户端——Rebased。对已经习惯 JetBrains 生态的人来说，用它几乎是零学习成本，打开就是熟悉的味道。亮点功能特色： - 完全开源（Apache 2.0 协议），免费使用、可随意二次开发 - 顶级 Diff / Review 体验（JetBrains 标志性优势） - 完整的 JetBrains VCS 工具窗（Commit、Git Log 图表、Branches 面板） - 交互式 Rebase 编辑器 + 视觉化冲突解决器 - 内置全文搜索 - 内置终端（支持多 Tab） - 原生支持 Git Worktree - 与 IntelliJ 100% 一致的快捷键和操作流唯一的缺点是内存占用比纯轻量 Git 工具稍大，但依然远低于 JetBrains 完整 IDE。多 Tab 终端 + Git Worktree，再搭配 Claude Code，Amp 这些工具，它已经能替代现在一堆类似 Superset 的 “Agentic IDE” 的工具了。感谢 @ayanamist 分享

显示更多

0

45

1.3K

164

转发到社区

MiPAY@MiPAY_SG

2026.04.12 02:08

【跨境电商卖家回款】别家U卡：提现慢、汇率暗扣、还要交一堆交易证明 MiPay：U进U出，2%+2U透明手续费，T+1到支付宝 ✅ 支持Shopify、亚马逊、Etsy等平台绑卡付款 ✅ 广告费、物流费、采购款一键直付 🔗 开店必备： 💬 卖家交流群： [Cross-border E-commerce Seller Payment Recovery] Other U-cards: Slow withdrawals, hidden exchange rate deductions, and a bunch of transaction proofs required. MiPay: U-in, U-out, 2% + 2U transparent handling fee, T+1 to Alipay. ✅ Supports bank card binding for payments on platforms like Shopify, Amazon, and Etsy. ✅ One-click direct payment for advertising fees, logistics fees, and procurement costs. 🔗 Essential for opening a store: 💬 Seller communication group:

显示更多

0

转发到社区

fin@fi56622380

2026.03.10 04:59

GTC 2026 preview：从Groq生态位看AI异构推理(Heterogeneous Inference)新时代 Groq的SRAM路线的生态位在哪里？SRAM会不会替代HBM路线？ Nvidia如何整合groq到现有的产品线？是技术整合还是产品线整合？收购之后会给groq LPU产品带来怎样的升级？这里尝试从基本原理出发去拼凑一个逻辑链 —-------------------------------------------- 先从first principal说说groq的设计哲学开始：groq本质上是一个compiler first走到极致的路线而不是SRAM first路线，SRAM路线只是副产品相对于CPU针对通用workload的设计不同，AI 推理workload的特征在于确定性(deterministic)更高，基本没有data-dependent branching，tensor shape固定，memory access pattern确定当Groq带着这个新特征重新审视 hardware-software interface，去问"什么应该在编译时做，什么应该在运行时做"。对于 AI 推理这个 workload，答案是：几乎一切都可以在编译时做这就是Groq最疯狂而独特的地方：完全确定性编译器（fully deterministic compiler），compile精确到每个时钟周期，完全精确带来极致的效率。在编译的时候就需要考虑到硬件在运行的每个时刻的所有状态，扮演一个全知全能的上帝，就可以避免硬件资源的浪费，而要做到这一点，必须要做到极致的确定性，也就是说，LPU里每一个计算，访问存储，通信的延迟，都需要精确到clock cycle，这对compiler来说是非常复杂的 AI workload更高的确定性，以及groq的完全确定性编译器优先路线很自然的避免了VLIW的弱点(内存行为以及branch行为不可预测)，放大了VLIW的优点。那么下一步要提高效率和并行度，VLIW 式的编码格式就是一个自然推论—既然编译器要控制每个功能单元每个 cycle 做什么，那指令格式当然就是一个宽指令里打包多个指令会得到更高效率，这就是 VLIW 在groq的芯片里，不做乱序执行/speculation，大幅简化硬件(instruction dispatch仅占<3%面积)，把复杂度移到静态compiler上，这正是VLIW思想的精髓既然要让编译器做确定性的 cycle-accurate 调度，那么硬件里所有不确定的因素都要消除，比如arbiter，crossbar, replay，这些有自主算法在运行时决策的部分都砍掉 memory latency 也必须是确定的，所以一切 cache 和 DRAM都是要砍掉的，cache也要换成scratchpad SRAM，因为cache replacement 策略是runtime决策的，不确定，必须换成软件控制的scratchpad，地址映射完全由compiler控制，保证确定性通信也必须精确到cycle，发送和接收指令就是软件协调好执行的时刻,并没有传统的“我要发一个包给你，请分配好内存”这类操作，而是同步地根据一份时间表严格执行SRAM 的分配和收发操作，这个时间表是compiler已经决定好的，硬件只需要执行就行了完全确定性compiler也带来了芯片节点之间互联通信overhead的极低延迟，这可能是groq确定性架构最被忽视的最大优势，毕竟传统互联架构里Packet Routing、Arbiter Contention 和 Buffer Queuing，这些是延迟波动的重灾区这就是为什么说，groq其实并不是一个native SRAM first的技术路线，也不完全算是VLIW first的技术路线，而是compiler first的技术路线，更准确的说，完全确定性compiler是整个groq架构的核心只是因为确定性compiler的原因，所以在核心decode阶段无法使用HBM/DRAM带来的不确定性，SRAM only成为了必然的选择。这也是为什么说Groq更像是compiler first路线。 —-------------------------------------------- groq被收购之后最直觉的第一反应： groq确定性compiler技术路线有没有可能用在Nvidia现在的GPU+HBM体系上？不能原因有两个： 1. HBM/DRAM的物理特性和带宽优化决定了它天生带有不可预测的延迟，无法和deterministic compiler兼容 2. Nvidia的SIMT路线和Groq的VLIW/compiler first的哲学本质是有冲突的 DRAM为什么充满了不确定性 1.refresh操作每隔一段时间tREFI就会刷新一次cell上的电量，阻断bank访问，这是由DRAM cell物理特性决定的。而这个操作会随着温度的变化，refresh的频率也会变化 2. 为了最大化利用DRAM带宽，controller会做很多优化，最典型的是batch scheduling：把同一个page的traffic都放在一起减少page miss，同时让读写尽可能接触更多的bank，以及尽可能减少read和write switching 这些动态优化都是real time发生的，基本不具备可预测性 3. system上对DRAM的优化，比如bank address hashing，让compiler静态提前定位某段data难度太大，落实cycle确定性的复杂度太高其实这些不确定性也是能解决的，代价就是放弃大部分的优化策略，大幅降低DRAM的efficiency和利用率。groq自己其实也对这方面做过探索，他们曾经做过一个确定性DRAM的专利，但工程上的实现是不现实的，这也是groq选择SRAM-only的核心原因之一。所以确定性compiler技术路线用在DRAM上不是一个yes or no的问题，而是这不是一个好的选择，因为这意味着HBM的efficiency和BW都要大打折扣，而且是结构性无法避免的损失。这几乎意味着要用compiler去重写一个完整的memory controller，因为确定性dram本质上是compiler software defined memory controller，这个SW controller会非常难做，复杂度极高，而且每一代memory迭代都要大幅更新compiler里的结构，在工程资源上是不现实的。而且每一代DRAM，每一家DRAM 供货商都需要调试，这在验证和validation上是一个nightmare --------- 为什么Nvidia的SIMT路线和Groq的VLIW/compiler first的哲学本质是有冲突的这两套体系对同一个问题给出了相反的回答：运行时的不确定性，Groq是compiler阶段直接消灭所有不确定性，Nvidia选择了用warp switching去隐藏不可预测的延迟 Nvidia GPU 建立在 SIMT（单指令多线程）和硬件层线程调度器（Warp Scheduler）上。当一个warp因为访存而stall的时候，硬件warp scheduler立刻切换到另一个ready的warp继续执行，把stall的延迟藏在其他warp的计算里。这整套机制的前提恰恰是：延迟是不可预测的，所以需要足够多的并发线程来统计性地填满pipeline 如果要用确定性的编译器去接管，等于把 Nvidia GPU 里面最核心的硬件调度单元全盘废弃：如果你不需要多warp轮转，你也不需要那么大的register file 实际在历史上，AMD从TeraScale（VLIW）到GCN（scalar SIMT）的架构转型，正是GPU领域一次大规模的VLIW→SIMT迁移：当workload变得不够可预测时，VLIW的compiler负担太重，应该把调度权还给硬件所以在原架构上引入确定性compiler应用到Nvidia现有的技术路线，是很难融合。这不是compiler能不能改的问题，是两套架构从第一性原理上就走了相反的方向。所以说，Groq在Nvidia的唯一出路，就是独立的面向low latency decode的专用产品。 —-------------------------------------------- Nvidia收购Groq之后，就引出了第二个问题： Nvidia会给Groq带来什么样的新提升？那么首先看看groq的瓶颈在哪里，简单的说 1. SRAM容量太小，无法容下大模型的参数量+kv cache 2. 推理decode主要瓶颈不在SRAM 80T/s的速度而在于interconnect延迟(占80%) 3. 对于Prefill这样的compute bound task速度较慢 groq的主要架构基本上是17~18年就完成了，那是CNN的时代，架构也是以CNN/LSTM为主要的target，当时测试benchmark都是ResNet50，SRAM容量是绰绰有余的但是进入LLM时代，单个TSP计算卡230MB SRAM就显得不够看了，一个LLAMA 70B模型的参数量占内存就相当于3000个ResNet50，再加上因为上下文long context日益膨胀的KV cache，scale out就成了唯一的出路于是一个70B模型的推理就需要576卡的集群，采用16个Pipeline并行（PP）和36个tensor 并行（TP），80层的大模型切成16级流水pipeline串行，每级横向5层MLP分给36个卡并行推理 16级流水pipeline串行（PP），每级流水到下级流水的通信overhead延迟就要 X16。实测中PP和TP之间的通信延迟占据了80%以上的总延迟，特别是PP延迟，占据了50%以上的总延迟，通信延迟成为了主要瓶颈 Groq计算卡对decode阶段的memory bound很友好，但是片上巨大的SRAM也挤压了compute的面积，导致prefill阶段耗时很高。融入Nvidia产品线之后，Groq产品完全可以扬长避短，只做自己擅长的decode部分，避免prefill阶段的短板 Nvidia带来的最重要的提升，可能是通过工艺的提升，以及hybrid bonding技术(类似AMD 3D V-Cache)，扩大Groq LPU SRAM的容量，比如光是14nm到3nm的工艺提升，SRAM就能从230MB扩大到500MB，如果以后引入3D SRAM，容量还能翻倍 SRAM变大之后，原来576个LPU能完成的70B模型推理，现在只需要256个LPU了。猜测也许可以用32个tensor并行 X 8 个流水pipeline串行，pipeline interconnect延迟能直接减半。所以Nvidia能带来的主要提升可能是，通过扩大SRAM的容量，减少scale out卡数，从而减少通信延迟时间，提高token速度 —-------------------------------------------- Groq的SRAM路线专用产品进入Nvidia产品线，引出了第三个问题： SRAM路线会颠覆HBM路线吗？不会。 SRAM路线本质上是用十倍的成本换几倍的速度，只能适用于一部分愿意为低延迟付出高额溢价的市场。AI硬件市场的主旋律仍然是比拼TCO(total cost ownership)成本做一个简单的成本核算就清楚了以LLAMA 70B模型为例，算上KV cache，Groq需要576张计算卡组成集群。Groq计算卡零售价大约是每颗2万美元(groq CEO说实际售价远低于，那就按2000美元算)，576卡就是超过110万美元的硬件成本。而2张H100就能跑同样的模型，成本不到10万美元。成本差距是一个数量级。 Groq于是转而卖token服务，Groq的API定价确实便宜，但这是因为两个原因叠加：第一，Nvidia的GPU云服务商通常在硬件成本上加倍的margin卖出去；第二，Groq自己是在亏钱运营的。2025年全年，Groq用LPU做大模型推理、对外卖API的业务，营收大约4000万美元，成本却是6000万美元，毛利-50%。Groq的便宜token价格不是因为SRAM的经济性更好，而是因为VC在补贴。那么有人愿意为速度付溢价吗？有。 Claude Opus 4.6 Fast模式就是一个很好的市场信号：输出速度提升2.5倍，定价直接从$5/$25涨到$30/$150 per million tokens，6倍的价格，估计是牺牲了batch带来的速度提升。所以这部分市场是真实存在的，SRAM路线在这里有它的生态位。但这个生态位有多大？要看ML workload的分类。不同的workload对硬件的侧重点要求差距巨大：推理的Prefill阶段对带宽要求低但算力要求高，推理decode阶段则是反过来。R&R(Ranking & Recommendation)对算力和带宽要求都不高但对存储的容量要求巨高（见附图）对延迟敏感的推理workload，decode阶段对Memory bandwidth要求高，是SRAM路线的优势领域（图中红色线），主要是real time/interactive LLM：chat、copilot、agent这类需要实时响应的场景。特别是reasoning model，SRAM路线带来的极致体验是很夸张的：H100要两三分钟跑完一reasoning，cerebras十秒就搞定了这部分注重极致推理速度的市场有多大，我暂时没有找到一个详尽的调研，看到一个Hyperscaler的说法目前是10%左右但是agentic flow workload，常用的agentic框架做profiling，比如SWE-Agent, LangChain, Toolformer，CPU最长可以占到90%的E2E端到端延迟，throughput瓶颈也更多的卡在CPU, 这些加起来通常远大于单次decode的延迟，SRAM路线速度优势被削弱。而更大体量的workload：batch inference、offline processing、ranking、recommendation对延迟没有那么敏感，throughput和cost per token才是唯一的指标。这部分市场SRAM路线完全没有成本上的竞争力 H100/B200相当于大巴车，装的人多(batch processing)，每个人的车票钱很便宜，但是慢悠悠。 Groq/cerebras相当于是法拉利，极致的速度体验，但是装的人少，人均票价是大巴车十倍甚至以上。长期来看，SRAM的成本劣势是结构性的，不会随时间收敛。6T SRAM cell天然比1T1C DRAM cell贵，这是物理决定的，和工艺无关。而且SRAM scaling已经慢了下来，从N5到N3E，SRAM单元面积几乎没有缩小即便是速度优势，SRAM路线的缺陷在于访问速度已经接近工艺极限，很难跨代提升。特别是HBM的速度每代都在指数上升的情况下，SRAM 80T/s的速度优势很难长久维持。十年前这个路线刚刚兴起的时候，SRAM速度比HBM快了两个数量级简直是降维打击，但现在的速度差已经不到一个数量级(Rubin HBM4 22TB/s)，再过十年，两者的速度可能拉不开差距了。所以结论很清楚：SRAM不会颠覆HBM，但它在低延迟、低batch、实时推理这个细分市场里有不可替代的价值。但长远来看，随着HBM速度指数上升的背景下，SRAM优势也会逐渐慢慢越小。 —-------------------------------------------- 写到这里，也许我们可以把这些碎片拼凑出Nvidia收购Groq之后计划的下一步雏形：异构推理的新时代开启了以后的推理workload本身已经分化，无法再用单一架构的最优点覆盖，体系结构最重要的是tradeoff，是尺度范围。一个架构形态在合理的tradeoff以及特定workload下可能惊为天人，用多个架构形态去迎合不同种类的workload，就是异构计算的思想 2026 GTC的最大主题，就是异构推理的系统化。推理不会由单一硬件统一完成，而会被拆成几个部分：控制和调度/agent runtime层交给Vera CPU 针对long context的prefill交给CPX (Content Phase aXcelerator，一个专门为prefill的compute bound特性设计的计算模块) 小模型/低延迟/low batch decode交给SRAM路线的Groq LPU，256块LPU集群高吞吐/高并发batch decode，HBM GPU仍然是主力以及可能会被忽略的ICMS：inference context memory storage, kv cache已经是核心基础设施，以前的异构更多是计算异构，现在的异构已然延申到了缓存异构memory hierachy heterogenity(似乎改名成了CMX: context memory storage) LPU和GPU的分工，更可能成为 inference stack 里两个不同的tier，小模型/低延迟/low batch都交给LPU，长context/high batch交给HBM GPU 目前CPX什么方式和LPU/GPU连接还尚不清楚，整个工作流程大概是，CPU做控制和调度，CPX Prefill 跑完得到几十 GB 的 KV Cache，分配到 Groq LPU阵列SRAM，或者分配到HBM GPU，开启Decode流程其实还有一种更大胆的猜想：如果引入speculative decoding，那么LPU完全可以跑通常尺寸较小的草稿模型，在LPU上速度极快，HBM GPU作为主力去验证草稿模型即可，这样的异构推理结构，可以让token rate大大加速，在某些场景下翻倍也是没问题的（比如代码任务模式固定，小模型很容易猜对语法，所以加速效果很好）当 Nvidia 的眼光越过GPU，走向整个 Agentic 流程的系统级优化时，追赶它的难度已经不在一个单一维度了。以前 Nvidia 步子迈得大，靠的是 GPU 架构和参数的单点暴力跃升；而现在，随着CPX，LPU，ICMS加入异构推理，它是从“数据中心即一台计算系统”的系统视角出发，从Agentic flow的角度做底层的异构编排。无论是系统的复杂度，还是软件栈的工作量(Dynamo/ICMS/CMX)，Nvidia 迈出的这一大步，直接把竞争门槛从“做出一颗好芯片”拉高到了“定义一整套异构系统来做普适加速计算解决方案“ —------------------------------------------------------- 不由得感慨，每一次计算范式的改变，半导体都会带来一波新的startup热潮，但当软件/应用形态逐渐收敛，最后还是变成了大厂通过收购把功能做大做全，参数做的更高，系统深度整合的更好更全面，成本更低，功耗和跑分更优秀，让startup慢慢失去独立生存的空间比如移动互联网时代早期，也是群雄并起，有做AP应用处理器，独立基带芯片的，ISP的，GPU的各种小公司。但最后的赢家，都是从到后来把GPU，ISP，modem全都做进SoC，并且完成系统级整合的异构计算平台。苹果收购PA semi的CPU，英飞凌的modem，掏空Imagination的GPU；高通收购ATI的mGPU，Atheros的Wifi，Nuvia的CPU，CSR的蓝牙/DSP，都是典型例子异构推理的复杂度越来越高，能做系统级整合的公司会更有优势，这和移动SoC时代的逻辑一模一样。AI时代nvidia收购arm(失败)，收购Mellanox，收购groq，只是这个新历史轮回的开始

显示更多

0

31

292

78

转发到社区

丰密@KuiGas

2026.01.16 08:52

BONK一开年就开始搞事，重点打造Bonkx+Bonktrade 很多meme币的生命周期很短，传播快，热度一过就熄火。我很欣赏BONK的点是，它把 meme 的传播能力当获客，绑定非常多的生态产品，并能靠产品创造强现金流自我供血，这让它的生命周期，比普通 meme强得多。（TenX 那篇长文也把 BONK 说得很清楚先说 BonkX： @BonkX_SOL是 BONK 在做的支付/账户产品，官方叫它Solana 新银行，也有说叫生活方式新银行。理解他们做的事：给普通人做的“账户 + 卡 + 出入金”，再叠一层 $BONK 的消费奖励，把法币和 Solana 的链上资金流打通。他们想做的目的也很明确：把 BONK从Meme往日常能用的产品推进。用返现、积分、NFT和真实消费权益把用户的日常支付变成 BONK 生态的增长入口。 📍目前还是Waitlist（等候名单）阶段：填邮箱就能报名，网站还有任务系统，做任务拿积分、冲榜拿奖励。登记入口： BonkX主要集成这些功能： IBAN 账户：法币 + 加密一起管（收款/资金管理）借记卡：稳定币返现，消费拿 $BONK 奖励出入金：法币 -Solana 快速结算规划中：薪资服务前不久的播客里，Branch 说得很明确：BONKX 是 BONK 生态里第一个被正式打造的官方品牌。按照我的理解是BonkX 的核心思路是：把加密资产包装成更贴近大众的银行级体验，用账户、卡、出入金解决能不能用、好不好用，再用 $BONK 奖励解决为什么用、为什么留。这其实是在做现实世界的支付入口。这一步走通了，BONK 的叙事就不再只靠 meme 情绪，而是靠真实使用场景。我看好 BONK 今年这套打法，不是因为它是 Meme，反而是因为它开始不按 Meme 的套路玩了： 1、有现金流：BONK 已经不是情绪 Meme，它有现金流，2025 年仅BONK.fun+ BONKbot 两个核心产品，协议收入就高达8300 万美金。 2、能反哺代币：更关键的是这些收入是会通过回购、销毁、金库累积回到代币层，把 BONK 变成一个能自我供血的资产，这是长期价值支撑的来源。 3、代币全流通有基本面： $BONK 现在已经全流通，总代币量88万亿，市值10亿左右，叙事干净，同时生态项目覆盖面也越来越广，接下来重点推的 BonkTrade 也是其中一环。另外，当 BONK 链上持币地址达到 100 万时，计划销毁 1 万亿枚BONK，目前接近99万地址。从这一套动作就能看出来：BONK 不想只当 Meme，而是要在 2026 走机构化路线，而 BONKX 就是把 BONK 带进消费场景的关键产品。 BONK 今年同时推 BonkTrade + BonkX：一个抓交易流量，一个抓日常留存。这种用产品赚钱、再反哺代币的逻辑，比任何都靠谱。关注bonk的中文区伙伴可以关一下@bonk_inu_zh tg：平时会送很多周边

显示更多

0

21

32

2

转发到社区