TwiScan
人気
コミュニティ
ログイン
登録
English
日本語
한국의
简体中文
繁体中文
登録して招待リンクを共有すると、動画再生報酬と紹介報酬を獲得できます。
今すぐ登録
yetone
@yetone
Work at
@isoformai
Built a Coding Agent for Vim: avante.nvim Building: Building: Building:
参加 May 2010
4.5K
フォロー中
84.3K
ファン
yetone
@yetone
2026.05.12 04:49
2.5GB 冷启动不到 2 分钟………… 我在前厂给大模型 serverless 部署的优化是 8GB 冷启动不到 20 秒。
思维怪怪
@0xLogicrw
2026.05.11 11:19
Avarok Cybersecurity 开源了 Atlas,一个用 Rust + CUDA 从零写的大模型推理引擎。它不依赖 Python 和 PyTorch,项目方称 Docker 镜像约 2.5GB,冷启动不到 2 分钟,目前主要面向 NVIDIA DGX Spark 的 GB10 平台优化。 官网模型矩阵显示,Atlas 在单台 DGX Spark 上跑 Qwen3.5-35B-A3B 可到约 130 tok/s,跑 Qwen3.6-35B-A3B 约 71 tok/s。Atlas 官网和 Hugging Face 页面称,在同硬件下,Qwen3.5-35B 平均约 111 tok/s、峰值 130 tok/s,vLLM 约 37 至 38 tok/s。 这组「3 倍 vLLM」数据来自项目方公开基准。GitHub README 写明,测试使用的是「法国首都是哪」这类短 prompt,生成上限不超过 30 个 token,temperature 为 0.1。这个口径更接近短请求、低并发、快速响应场景,也正好对应 Atlas 想打的卖点:用更小镜像、更少依赖和更快冷启动,把本地大模型服务变得更轻。 Atlas 现在仍是早期项目,真实生产场景还要看后续长文本、高并发和复杂工具调用测试。GitHub 上已有用户反馈输出质量和工具调用稳定性问题,相关 Issue 截至 2026 年 5 月 11 日仍处于 Open 状态。对开发者来说,它更像一个值得关注的新推理底座,而不是已经能全面替代 vLLM 的成熟方案。
もっと見る
0
0
6
64
1
コミュニティへ転送
人気のあるユーザー
一劍浣春秋
@chee828
229K ファン
合沢萌
@aizawamoe0515
5.9K ファン
alex01 AV🔞
@gzjsyvv
33.1K ファン
森咲智美
@p_tomo0812
354.3K ファン
SieuThiAV
@SieuThiAV
212.6K ファン
♥愛葉るび♡Ruby♥👑💿全力元年🎶配信中
@rubyaiba816
3.3K ファン
希島あいり💐:*.
@airi_kijima
1.4M ファン
Aqua水淼
@aqua_cosplay
1.9M ファン
Natsuko夏夏子💕C107(水)東7 T-11b
@Natsuko233
285.9K ファン
菅田将暉
@sudaofficial
3M ファン
真島なおみ
@naomi_majima
699.2K ファン
ねね🐻❄
@__zzz___oo0
370.6K ファン
ケイン・ヤリスギ「♂」
@kein_yarisugi
542.3K ファン
涼森れむ
@remu19971203
1.5M ファン
明日花キララ🏰🐇
@asukakiraran
2.4M ファン
年齢確認
本サイトには成人向けのコンテンツが含まれる場合があります。18歳以上の方のみご利用いただけます。
18歳以上です — 続行