TwiScan
인기
커뮤니티
로그인
회원가입
English
日本語
한국의
简体中文
繁体中文
가입 후 초대 링크를 공유하면 동영상 재생 및 초대 보상을 받을 수 있습니다.
지금 가입
勃勃OC
@bboczeng
美股投资日报: Financial Advice
가입 November 2010
732
팔로잉 중
208.5K
팬
勃勃OC
@bboczeng
2026.04.29 18:57
如果你运行一个 NVIDIA H100 集群,并且希望训练任务能真正跑完,那么你必须有大约 5% 的算力冗余:而这相当于每个月有超过 100 万美元的芯片“闲置”。 这个结论来自一项在 11 月发布的研究:基于 1,056 块 GPU、持续 2.5 年、累计 1,170 万 GPU 小时的运行数据。这是目前公开领域中,对 H100 可靠性规模最大的一次分析。 成本之所以这么高,原因在于:每块 H100 出现“不可纠正内存错误”(uncorrectable memory errors)的概率,是 NVIDIA A100 的 3.2 倍。NVIDIA 为应对错误设计的恢复机制(例如行重映射、错误隔离)原本是按 A100 较小规模设计的,在 H100 上不仅触发更频繁,而且失败率也更高。单节点可用性大约是 99.3%,听起来还不错,但一旦把它扩展到数百个节点、再叠加一个月的运行时间,整体成功率就会显著下降。 论文中最有价值的数字其实藏在推算里:如果单节点可用性从 99.3% 提升到 99.9%,所需的超额配置(overprovisioning)可以减少 2.5 倍。这正是为什么行业开始把“硬件可靠性”当作“软件问题”来解决——这是一个纯粹的经济驱动。
더 보기
0
0
1
19
2
커뮤니티로 전달
인기 있는 사용자
야살 / Yasal
@Yasal_170
869.9K 팬
一劍浣春秋
@chee828
229K 팬
乐老爺AV選
@HappyLok1157
103.5K 팬
彭博商業周刊 / 中文版
@BloombergBWCN
40.9K 팬
有村架純's staff
@Kasumistaff
559.1K 팬
小牛
@Xiaoniu6161
170.9K 팬
绯夜晚棠
@saurabhwork
31.2K 팬
浜辺美波
@MINAMI373HAMABE
2.4M 팬
유경
@joj_838
82.8K 팬
凤九歌🔶BNB
@liuwan9898
5K 팬
橋本環奈
@H_KANNA_0203
5M 팬
New York Post
@nypost
3.8M 팬
安宇泽
@DFHDJZY
16.3K 팬
夜郎奔(精品资源搬运工)
@yelangben
69.4K 팬
每日看片
@sexyqggdww
69.4K 팬
연령 확인
이 사이트에는 성인 대상 콘텐츠가 포함될 수 있습니다. 만 18세 이상만 이용할 수 있습니다.
만 18세 이상입니다 — 계속