Shen Huang(@ShenHuang ):大家都在押 GPU，但 AI agent 的真实瓶颈根本不在 GPU 上。 Georgia Tech × Intel 去年 11 月发了一篇论文（arXiv:2511.00739），在 5 个真实 agent 系统上实测—— 工具调用（搜一下、查数据库、跑代码、读文件）占掉了整个响应时间的大头：检索型 agent：90.6% Devin 同类代码 agent：78.7% LangChain：>50% 模型推理从来不是瓶颈。道理其实很朴素：一次对话里，agent 要调工具十几轮（搜一下、看结果、再搜、跑代码、看报错、再跑…）。每一次工具调用都在 CPU 上，GPU 大部分时间其实在闲置。更反直觉的数字：并发请求一堆上去，CPU 电费暴涨 87 倍，GPU 只涨 27 倍。也就是说 agent 规模一大，电费账单的主力是 CPU，不是大家盯着的 GPU。这对 AI 基础设施的估值模型来说，是三个没被 price in 的信号： CPU 侧的"老钱"会被重新定价。 Intel / AMD 的服务器 CPU、内存带宽、互联芯片，在 agent 时代不再是"便宜的配件"。只买更多 H100 救不了 agent 产品的延迟。很多 AI 创业公司做 agent，还在继续往 GPU 堆钱 —— 这条路走不通。 Datacenter 电费模型要重写。CPU 吃掉 44% 的动态能耗，散热和电力预算全要重估，直接影响 Neocloud 和 hyperscaler 的毛利。 AI infra 的下半场，战场从 GPU 搬到 CPU + 内存 + 互联。大部分人还在讨论模型参数的时候，已经有人在重画 datacenter 的账本。

2026.04.18 21:51

大家都在押 GPU，但 AI agent 的真实瓶颈根本不在 GPU 上。 Georgia Tech × Intel 去年 11 月发了一篇论文（arXiv:2511.00739），在 5 个真实 agent 系统上实测—— 工具调用（搜一下、查数据库、跑代码、读文件）占掉了整个响应时间的大头：检索型 agent：90.6% Devin 同类代码 agent：78.7% LangChain：>50% 模型推理从来不是瓶颈。道理其实很朴素：一次对话里，agent 要调工具十几轮（搜一下、看结果、再搜、跑代码、看报错、再跑…）。每一次工具调用都在 CPU 上，GPU 大部分时间其实在闲置。更反直觉的数字：并发请求一堆上去，CPU 电费暴涨 87 倍，GPU 只涨 27 倍。也就是说 agent 规模一大，电费账单的主力是 CPU，不是大家盯着的 GPU。这对 AI 基础设施的估值模型来说，是三个没被 price in 的信号： CPU 侧的"老钱"会被重新定价。 Intel / AMD 的服务器 CPU、内存带宽、互联芯片，在 agent 时代不再是"便宜的配件"。只买更多 H100 救不了 agent 产品的延迟。很多 AI 创业公司做 agent，还在继续往 GPU 堆钱 —— 这条路走不通。 Datacenter 电费模型要重写。CPU 吃掉 44% 的动态能耗，散热和电力预算全要重估，直接影响 Neocloud 和 hyperscaler 的毛利。 AI infra 的下半场，战场从 GPU 搬到 CPU + 内存 + 互联。大部分人还在讨论模型参数的时候，已经有人在重画 datacenter 的账本。