TwiScan
인기
커뮤니티
로그인
회원가입
English
日本語
한국의
简体中文
繁体中文
가입 후 초대 링크를 공유하면 동영상 재생 및 초대 보상을 받을 수 있습니다.
지금 가입
Sky G.cph
@skyguoCypherium
@CypheriumChain
Commander in Chief. $CPH
가입 March 2014
1.3K
팔로잉 중
23.7K
팬
Sky G.cph
@skyguoCypherium
2026.04.29 21:46
闲置的GPU就来挖CPH,赢两次
勃勃OC
@bboczeng
2026.04.29 18:57
如果你运行一个 NVIDIA H100 集群,并且希望训练任务能真正跑完,那么你必须有大约 5% 的算力冗余:而这相当于每个月有超过 100 万美元的芯片“闲置”。 这个结论来自一项在 11 月发布的研究:基于 1,056 块 GPU、持续 2.5 年、累计 1,170 万 GPU 小时的运行数据。这是目前公开领域中,对 H100 可靠性规模最大的一次分析。 成本之所以这么高,原因在于:每块 H100 出现“不可纠正内存错误”(uncorrectable memory errors)的概率,是 NVIDIA A100 的 3.2 倍。NVIDIA 为应对错误设计的恢复机制(例如行重映射、错误隔离)原本是按 A100 较小规模设计的,在 H100 上不仅触发更频繁,而且失败率也更高。单节点可用性大约是 99.3%,听起来还不错,但一旦把它扩展到数百个节点、再叠加一个月的运行时间,整体成功率就会显著下降。 论文中最有价值的数字其实藏在推算里:如果单节点可用性从 99.3% 提升到 99.9%,所需的超额配置(overprovisioning)可以减少 2.5 倍。这正是为什么行业开始把“硬件可靠性”当作“软件问题”来解决——这是一个纯粹的经济驱动。
더 보기
0
0
0
13
2
커뮤니티로 전달
인기 있는 사용자
야살 / Yasal
@Yasal_170
869.9K 팬
一劍浣春秋
@chee828
229K 팬
乐老爺AV選
@HappyLok1157
108.7K 팬
彭博商業周刊 / 中文版
@BloombergBWCN
40.9K 팬
有村架純's staff
@Kasumistaff
559.1K 팬
New York Post
@nypost
3.8M 팬
浜辺美波
@MINAMI373HAMABE
2.4M 팬
billboard
@billboard
15.2M 팬
小牛
@Xiaoniu6161
170.9K 팬
橋本環奈
@H_KANNA_0203
5M 팬
绯夜晚棠
@saurabhwork
31.2K 팬
0xAA
@0xAA_Science
178.9K 팬
安宇泽
@DFHDJZY
16.3K 팬
川沐|Trumoo🐮
@xiaomustock
228.7K 팬
夜郎奔(精品资源搬运工)
@yelangben
69.4K 팬
연령 확인
이 사이트에는 성인 대상 콘텐츠가 포함될 수 있습니다. 만 18세 이상만 이용할 수 있습니다.
만 18세 이상입니다 — 계속