注册并分享邀请链接,可获得视频播放与邀请奖励。

yetone
@yetone
Work at @isoformai Built a Coding Agent for Vim: avante.nvim Building: Building: Building:
4.5K 正在关注    84.3K 粉丝
腾讯可以发布个 Copy Agent
我们发布 Yansu App 之后,可能有人会觉得,这不就是另一个 AI Agent/ChatBot 吗?我为什么要改变我的使用习惯从别的 Agent 切换到 Yansu 呢? 针对这个问题,我们特地推出了 Yansu Skill。这就意味着安装这个 Skill 之后,你可以在你自己喜欢的任意的 Agent 中使用到 Yansu 的强大的能力!这些能力包括且不仅限于:无感且持续地且安全脱敏地记录你每时每刻的日常行为,自动从中萃取出高质量的知识、记忆、Activity 记录等等,然后让其作为你正在使用的 Agent 的上下文。Yansu 在其中充当了一个 Agent 无关的且持续有机增长的 memory hub 和 knowledge hub。 因为这一切都是基于你真实的生活记录,并不依赖任何人类的二次转述,所以这些上下文的质量都是超高的,这就是这个 skill 能大幅提升你的 Agent 任务完成能力的秘诀! 更多的例子可以看一下 Yansu Skill 仓库里的介绍。 安装地址:
显示更多
0
31
249
25
转发到社区
2.5GB 冷启动不到 2 分钟………… 我在前厂给大模型 serverless 部署的优化是 8GB 冷启动不到 20 秒。
Avarok Cybersecurity 开源了 Atlas,一个用 Rust + CUDA 从零写的大模型推理引擎。它不依赖 Python 和 PyTorch,项目方称 Docker 镜像约 2.5GB,冷启动不到 2 分钟,目前主要面向 NVIDIA DGX Spark 的 GB10 平台优化。 官网模型矩阵显示,Atlas 在单台 DGX Spark 上跑 Qwen3.5-35B-A3B 可到约 130 tok/s,跑 Qwen3.6-35B-A3B 约 71 tok/s。Atlas 官网和 Hugging Face 页面称,在同硬件下,Qwen3.5-35B 平均约 111 tok/s、峰值 130 tok/s,vLLM 约 37 至 38 tok/s。 这组「3 倍 vLLM」数据来自项目方公开基准。GitHub README 写明,测试使用的是「法国首都是哪」这类短 prompt,生成上限不超过 30 个 token,temperature 为 0.1。这个口径更接近短请求、低并发、快速响应场景,也正好对应 Atlas 想打的卖点:用更小镜像、更少依赖和更快冷启动,把本地大模型服务变得更轻。 Atlas 现在仍是早期项目,真实生产场景还要看后续长文本、高并发和复杂工具调用测试。GitHub 上已有用户反馈输出质量和工具调用稳定性问题,相关 Issue 截至 2026 年 5 月 11 日仍处于 Open 状态。对开发者来说,它更像一个值得关注的新推理底座,而不是已经能全面替代 vLLM 的成熟方案。
显示更多
好久没打开过这个页面了,哭了
0
12
73
1
转发到社区
虽然 CodeX UI 看起来很好,但是据我所知,市面上只有 Claude Desktop app 和 Alma 做到了 Streaming rendering 的时候没有任何的 Render Stall。
0
33
173
11
转发到社区
最新版的 Alma 开箱自带 CodeX app 的 Computer Use 功能了。
0
16
158
9
转发到社区