Sky G.cph(@skyguoCypherium):闲置的GPU就来挖CPH，赢两次

2026.04.29 21:46

闲置的GPU就来挖CPH，赢两次

2026.04.29 18:57

如果你运行一个 NVIDIA H100 集群，并且希望训练任务能真正跑完，那么你必须有大约 5% 的算力冗余：而这相当于每个月有超过 100 万美元的芯片“闲置”。这个结论来自一项在 11 月发布的研究：基于 1,056 块 GPU、持续 2.5 年、累计 1,170 万 GPU 小时的运行数据。这是目前公开领域中，对 H100 可靠性规模最大的一次分析。成本之所以这么高，原因在于：每块 H100 出现“不可纠正内存错误”（uncorrectable memory errors）的概率，是 NVIDIA A100 的 3.2 倍。NVIDIA 为应对错误设计的恢复机制（例如行重映射、错误隔离）原本是按 A100 较小规模设计的，在 H100 上不仅触发更频繁，而且失败率也更高。单节点可用性大约是 99.3%，听起来还不错，但一旦把它扩展到数百个节点、再叠加一个月的运行时间，整体成功率就会显著下降。论文中最有价值的数字其实藏在推算里：如果单节点可用性从 99.3% 提升到 99.9%，所需的超额配置（overprovisioning）可以减少 2.5 倍。这正是为什么行业开始把“硬件可靠性”当作“软件问题”来解决——这是一个纯粹的经济驱动。