KK.aWSB(@KKaWSB):说一件AI圈反常识的事：本地跑大模型省钱这个叙事，今天被一篇 williamangel的实测稿正面翻车了。测试机是 14 寸 M5 Max + 64GB 内存，零售价 $4,299。Gemma 4 31B 本地推理速度 10-40 token/s，按 $0.18-$0.20/kWh 的家庭电价摊算，每百万 token 综合成本落在 $0.40-$4.79 这个区间。看起来不错——本地、私密、零订阅费。但 OpenRouter 同一个模型 $0.38-$0.50/百万 token，部分供应商吞吐 60-70 token/s。云端比本地便宜，速度还快两倍。问题在哪："本地跑模型省钱"这个故事里最大的认知错位是——它默认那台 $4,299 的机器是免费的。机器本身就是成本，电也是成本，时间也是成本：折旧、闲置、机房噪音、笔记本插电时长、Mac mini 不开机就跑不了任务。为什么这个故事流行：一是订阅疲劳，大家受够了月费叠加，本地跑像是"一次性买断算力"；二是隐私和离线作为真实需求，被错位地包装成了"省钱"卖点；三是 Apple Silicon 的 unified memory + MPS 硬件叙事确实漂亮，但漂亮不等于划算。本地推理赢的是隐私、离线、可控、不被 rate limit 卡脖子。它输的恰恰是按账算。这台 M5 Max 不是私有 AI 数据中心，它是一台贵价开发机，碰巧也能跑模型。参照系是当年的自建挖矿机。技术上完全可行，但电费和折旧很快把账面利润吃光，最后真赚钱的不是矿工，是矿池和云算力。LLM 这一轮，OpenRouter 们就是新的矿池。

2026.05.17 19:08

说一件AI圈反常识的事：本地跑大模型省钱这个叙事，今天被一篇 williamangel的实测稿正面翻车了。测试机是 14 寸 M5 Max + 64GB 内存，零售价 $4,299。Gemma 4 31B 本地推理速度 10-40 token/s，按 $0.18-$0.20/kWh 的家庭电价摊算，每百万 token 综合成本落在 $0.40-$4.79 这个区间。看起来不错——本地、私密、零订阅费。但 OpenRouter 同一个模型 $0.38-$0.50/百万 token，部分供应商吞吐 60-70 token/s。云端比本地便宜，速度还快两倍。问题在哪："本地跑模型省钱"这个故事里最大的认知错位是——它默认那台 $4,299 的机器是免费的。机器本身就是成本，电也是成本，时间也是成本：折旧、闲置、机房噪音、笔记本插电时长、Mac mini 不开机就跑不了任务。为什么这个故事流行：一是订阅疲劳，大家受够了月费叠加，本地跑像是"一次性买断算力"；二是隐私和离线作为真实需求，被错位地包装成了"省钱"卖点；三是 Apple Silicon 的 unified memory + MPS 硬件叙事确实漂亮，但漂亮不等于划算。本地推理赢的是隐私、离线、可控、不被 rate limit 卡脖子。它输的恰恰是按账算。这台 M5 Max 不是私有 AI 数据中心，它是一台贵价开发机，碰巧也能跑模型。参照系是当年的自建挖矿机。技术上完全可行，但电费和折旧很快把账面利润吃光，最后真赚钱的不是矿工，是矿池和云算力。LLM 这一轮，OpenRouter 们就是新的矿池。

Forward to community