向阳乔木(@vista8):前段时间小龙虾、Hermes爆火，一个特别大的痛点就是太烧Token了。关于怎么省Token，很多人研究了很多方法，比如用qmd等本地语义搜索，换便宜模型等。最近刷到一个开源项目@OpenSquilla，把省Token这件事儿做得很不错。核心逻辑：智能模型路由 + 本地向量检索简单问题，用便宜模型，复杂任务，用更厉害的模型。智能路由本地完成，不消耗Token，换模型也是自动判断，不需要手动切。后台还有模型调用成本统计，随时查看用了哪些模型，花了多少钱。连续对话，让它写个抓取 Paulgraham 最新文章脚本，只消耗了5500 Token。完成后会显示 COMBO ×2 ，像游戏的连击反馈，有意思，哈哈哈相比完整重发，每轮只增量发送，缓存命中机制也实际传输 token 减少了 90%+ 记忆系统做得也不错，快到上下文上限时，子 Agent 筛除关键内容再压缩，支持BM25 + 向量混合检索。自动整理白天对话，第二天也能记得上下文，让 Cron job 定时抓新闻、跑任务，很省心。安全上也有考量，高风险工具跑在沙箱里，按来源直接不明工具、Skill调用。支持 Openclaw 一键迁移，记忆、配置、技能全能移过来，切换零成本。安装很简单，跟Claude Code或Codex说：带我安装配置：

2026.05.14 02:55

前段时间小龙虾、Hermes爆火，一个特别大的痛点就是太烧Token了。关于怎么省Token，很多人研究了很多方法，比如用qmd等本地语义搜索，换便宜模型等。最近刷到一个开源项目@OpenSquilla，把省Token这件事儿做得很不错。核心逻辑：智能模型路由 + 本地向量检索简单问题，用便宜模型，复杂任务，用更厉害的模型。智能路由本地完成，不消耗Token，换模型也是自动判断，不需要手动切。后台还有模型调用成本统计，随时查看用了哪些模型，花了多少钱。连续对话，让它写个抓取 Paulgraham 最新文章脚本，只消耗了5500 Token。完成后会显示 COMBO ×2 ，像游戏的连击反馈，有意思，哈哈哈相比完整重发，每轮只增量发送，缓存命中机制也实际传输 token 减少了 90%+ 记忆系统做得也不错，快到上下文上限时，子 Agent 筛除关键内容再压缩，支持BM25 + 向量混合检索。自动整理白天对话，第二天也能记得上下文，让 Cron job 定时抓新闻、跑任务，很省心。安全上也有考量，高风险工具跑在沙箱里，按来源直接不明工具、Skill调用。支持 Openclaw 一键迁移，记忆、配置、技能全能移过来，切换零成本。安装很简单，跟Claude Code或Codex说：带我安装配置：

147

Forward to community