登録して招待リンクを共有すると、動画再生報酬と紹介報酬を獲得できます。

BlanPlan
@blanplan
CTO|ex-Baidu|AI, product, engineering & startup — real frontline notes
参加 February 2025
400 フォロー中    439 ファン
@iamai_omni 这条说到了跑过推理的人体感。线上做大模型推理, GPU 算力单元经常闲着 60-70%, 卡脖子的是 KV cache 在卡间搬, 还有算 attention 中间去取 weight 的等待。算力翻倍吞吐提一点, NVLink 带宽 + KV cache 一起优化下来延迟直接砍一半。
もっと見る