跑本地大模型真令人上瘾,从最开始的用 LM Studio,Ollama,改为使用 llama.cpp,使用 Unsloth 量化的 GGUF。再到 vLLM,SGLang,KTransformers 都摸索了一遍,然后发现目前的工具其实对于 RTX 5090 (sm120) 的 FP4 支持的都不太好,虽然能运行 4bit 量化模型省显存,但都还无法利用原生 FP4 硬件加速。虽然都是 Blackwell 架构,但服务器上的 B200 和家用的 RTX 5090 区别很大,最终走向了自己修改编译 SGLang 的道路。
顯示更多