TwiScan
人気
コミュニティ
ログイン
登録
English
日本語
한국의
简体中文
繁体中文
登録して招待リンクを共有すると、動画再生報酬と紹介報酬を獲得できます。
今すぐ登録
Sky G.cph
@skyguoCypherium
@CypheriumChain
Commander in Chief. $CPH
参加 March 2014
1.3K
フォロー中
23.7K
ファン
Sky G.cph
@skyguoCypherium
2026.04.29 21:46
闲置的GPU就来挖CPH,赢两次
勃勃OC
@bboczeng
2026.04.29 18:57
如果你运行一个 NVIDIA H100 集群,并且希望训练任务能真正跑完,那么你必须有大约 5% 的算力冗余:而这相当于每个月有超过 100 万美元的芯片“闲置”。 这个结论来自一项在 11 月发布的研究:基于 1,056 块 GPU、持续 2.5 年、累计 1,170 万 GPU 小时的运行数据。这是目前公开领域中,对 H100 可靠性规模最大的一次分析。 成本之所以这么高,原因在于:每块 H100 出现“不可纠正内存错误”(uncorrectable memory errors)的概率,是 NVIDIA A100 的 3.2 倍。NVIDIA 为应对错误设计的恢复机制(例如行重映射、错误隔离)原本是按 A100 较小规模设计的,在 H100 上不仅触发更频繁,而且失败率也更高。单节点可用性大约是 99.3%,听起来还不错,但一旦把它扩展到数百个节点、再叠加一个月的运行时间,整体成功率就会显著下降。 论文中最有价值的数字其实藏在推算里:如果单节点可用性从 99.3% 提升到 99.9%,所需的超额配置(overprovisioning)可以减少 2.5 倍。这正是为什么行业开始把“硬件可靠性”当作“软件问题”来解决——这是一个纯粹的经济驱动。
もっと見る
0
0
0
13
2
コミュニティへ転送
人気のあるユーザー
一劍浣春秋
@chee828
229K ファン
合沢萌
@aizawamoe0515
5.9K ファン
alex01 AV🔞
@gzjsyvv
33.1K ファン
森咲智美
@p_tomo0812
354.3K ファン
SieuThiAV
@SieuThiAV
212.7K ファン
♥愛葉るび♡Ruby♥👑💿全力元年🎶配信中
@rubyaiba816
3.3K ファン
Aqua水淼
@aqua_cosplay
1.9M ファン
希島あいり💐:*.
@airi_kijima
1.4M ファン
Natsuko夏夏子💕C107(水)東7 T-11b
@Natsuko233
286.1K ファン
菅田将暉
@sudaofficial
3M ファン
真島なおみ
@naomi_majima
699.2K ファン
ねね🐻❄
@__zzz___oo0
370.6K ファン
ケイン・ヤリスギ「♂」
@kein_yarisugi
542.3K ファン
涼森れむ
@remu19971203
1.5M ファン
明日花キララ🏰🐇
@asukakiraran
2.4M ファン
年齢確認
本サイトには成人向けのコンテンツが含まれる場合があります。18歳以上の方のみご利用いただけます。
18歳以上です — 続行