Aliez Ren(@aliez_ren):跑本地大模型真令人上瘾，从最开始的用 LM Studio，Ollama，改为使用 llama.cpp，使用 Unsloth 量化的 GGUF。再到 vLLM，SGLang，KTransformers 都摸索了一遍，然后发现目前的工具其实对于 RTX 5090 (sm120) 的 FP4 支持的都不太好，虽然能运行 4bit 量化模型省显存，但都还无法利用原生 FP4 硬件加速。虽然都是 Blackwell 架构，但服务器上的 B200 和家用的 RTX 5090 区别很大，最终走向了自己修改编译 SGLang 的道路。

2026.03.05 16:03

跑本地大模型真令人上瘾，从最开始的用 LM Studio，Ollama，改为使用 llama.cpp，使用 Unsloth 量化的 GGUF。再到 vLLM，SGLang，KTransformers 都摸索了一遍，然后发现目前的工具其实对于 RTX 5090 (sm120) 的 FP4 支持的都不太好，虽然能运行 4bit 量化模型省显存，但都还无法利用原生 FP4 硬件加速。虽然都是 Blackwell 架构，但服务器上的 B200 和家用的 RTX 5090 区别很大，最终走向了自己修改编译 SGLang 的道路。