註冊並分享邀請連結,可獲得影片播放與邀請獎勵。

Aliez Ren
@aliez_ren
独立开发者 菜鸡架构师 我的产品 @taoli_tools
加入 June 2014
1.7K 正在關注    16.3K 粉絲
跑本地大模型真令人上瘾,从最开始的用 LM Studio,Ollama,改为使用 llama.cpp,使用 Unsloth 量化的 GGUF。再到 vLLM,SGLang,KTransformers 都摸索了一遍,然后发现目前的工具其实对于 RTX 5090 (sm120) 的 FP4 支持的都不太好,虽然能运行 4bit 量化模型省显存,但都还无法利用原生 FP4 硬件加速。虽然都是 Blackwell 架构,但服务器上的 B200 和家用的 RTX 5090 区别很大,最终走向了自己修改编译 SGLang 的道路。
顯示更多
0
34
389
41
轉發到社區