Register and share your invite link to earn from video plays and referrals.

KK.aWSB
@KKaWSB
Co Founder @ CarbonSilicon AI | AI Quant Trading in Palo Alto | 加密投研 | 美股 | 科技 | 政治经济学 | 用趣闻对冲无聊世界
Joined November 2020
3.2K Following    85.3K Followers
说一件AI圈反常识的事: 本地跑大模型省钱这个叙事,今天被一篇 williamangel的实测稿正面翻车了。 测试机是 14 寸 M5 Max + 64GB 内存,零售价 $4,299。Gemma 4 31B 本地推理速度 10-40 token/s,按 $0.18-$0.20/kWh 的家庭电价摊算,每百万 token 综合成本落在 $0.40-$4.79 这个区间。看起来不错——本地、私密、零订阅费。 但 OpenRouter 同一个模型 $0.38-$0.50/百万 token,部分供应商吞吐 60-70 token/s。云端比本地便宜,速度还快两倍。 问题在哪:"本地跑模型省钱"这个故事里最大的认知错位是——它默认那台 $4,299 的机器是免费的。机器本身就是成本,电也是成本,时间也是成本:折旧、闲置、机房噪音、笔记本插电时长、Mac mini 不开机就跑不了任务。 为什么这个故事流行:一是订阅疲劳,大家受够了月费叠加,本地跑像是"一次性买断算力";二是隐私和离线作为真实需求,被错位地包装成了"省钱"卖点;三是 Apple Silicon 的 unified memory + MPS 硬件叙事确实漂亮,但漂亮不等于划算。 本地推理赢的是隐私、离线、可控、不被 rate limit 卡脖子。它输的恰恰是按账算。 这台 M5 Max 不是私有 AI 数据中心,它是一台贵价开发机,碰巧也能跑模型。 参照系是当年的自建挖矿机。技术上完全可行,但电费和折旧很快把账面利润吃光,最后真赚钱的不是矿工,是矿池和云算力。LLM 这一轮,OpenRouter 们就是新的矿池。
Show more