登録して招待リンクを共有すると、動画再生報酬と紹介報酬を獲得できます。

Sky G.cph
@skyguoCypherium
@CypheriumChain Commander in Chief. $CPH
参加 March 2014
1.3K フォロー中    23.7K ファン
闲置的GPU就来挖CPH,赢两次
如果你运行一个 NVIDIA H100 集群,并且希望训练任务能真正跑完,那么你必须有大约 5% 的算力冗余:而这相当于每个月有超过 100 万美元的芯片“闲置”。 这个结论来自一项在 11 月发布的研究:基于 1,056 块 GPU、持续 2.5 年、累计 1,170 万 GPU 小时的运行数据。这是目前公开领域中,对 H100 可靠性规模最大的一次分析。 成本之所以这么高,原因在于:每块 H100 出现“不可纠正内存错误”(uncorrectable memory errors)的概率,是 NVIDIA A100 的 3.2 倍。NVIDIA 为应对错误设计的恢复机制(例如行重映射、错误隔离)原本是按 A100 较小规模设计的,在 H100 上不仅触发更频繁,而且失败率也更高。单节点可用性大约是 99.3%,听起来还不错,但一旦把它扩展到数百个节点、再叠加一个月的运行时间,整体成功率就会显著下降。 论文中最有价值的数字其实藏在推算里:如果单节点可用性从 99.3% 提升到 99.9%,所需的超额配置(overprovisioning)可以减少 2.5 倍。这正是为什么行业开始把“硬件可靠性”当作“软件问题”来解决——这是一个纯粹的经济驱动。
もっと見る