yetone(@yetone):2.5GB 冷启动不到 2 分钟………… 我在前厂给大模型 serverless 部署的优化是 8GB 冷启动不到 20 秒。

2026.05.12 04:49

2.5GB 冷启动不到 2 分钟………… 我在前厂给大模型 serverless 部署的优化是 8GB 冷启动不到 20 秒。

2026.05.11 11:19

Avarok Cybersecurity 开源了 Atlas，一个用 Rust + CUDA 从零写的大模型推理引擎。它不依赖 Python 和 PyTorch，项目方称 Docker 镜像约 2.5GB，冷启动不到 2 分钟，目前主要面向 NVIDIA DGX Spark 的 GB10 平台优化。官网模型矩阵显示，Atlas 在单台 DGX Spark 上跑 Qwen3.5-35B-A3B 可到约 130 tok/s，跑 Qwen3.6-35B-A3B 约 71 tok/s。Atlas 官网和 Hugging Face 页面称，在同硬件下，Qwen3.5-35B 平均约 111 tok/s、峰值 130 tok/s，vLLM 约 37 至 38 tok/s。这组「3 倍 vLLM」数据来自项目方公开基准。GitHub README 写明，测试使用的是「法国首都是哪」这类短 prompt，生成上限不超过 30 个 token，temperature 为 0.1。这个口径更接近短请求、低并发、快速响应场景，也正好对应 Atlas 想打的卖点：用更小镜像、更少依赖和更快冷启动，把本地大模型服务变得更轻。 Atlas 现在仍是早期项目，真实生产场景还要看后续长文本、高并发和复杂工具调用测试。GitHub 上已有用户反馈输出质量和工具调用稳定性问题，相关 Issue 截至 2026 年 5 月 11 日仍处于 Open 状态。对开发者来说，它更像一个值得关注的新推理底座，而不是已经能全面替代 vLLM 的成熟方案。