登録して招待リンクを共有すると、動画再生報酬と紹介報酬を獲得できます。

Aliez Ren
@aliez_ren
独立开发者 菜鸡架构师 我的产品 @taoli_tools
参加 June 2014
1.7K フォロー中    16.3K ファン
给 KTransformers 提的 PR 合并了!
跑本地大模型真令人上瘾,从最开始的用 LM Studio,Ollama,改为使用 llama.cpp,使用 Unsloth 量化的 GGUF。再到 vLLM,SGLang,KTransformers 都摸索了一遍,然后发现目前的工具其实对于 RTX 5090 (sm120) 的 FP4 支持的都不太好,虽然能运行 4bit 量化模型省显存,但都还无法利用原生 FP4 硬件加速。虽然都是 Blackwell 架构,但服务器上的 B200 和家用的 RTX 5090 区别很大,最终走向了自己修改编译 SGLang 的道路。
もっと見る