前段时间小龙虾、Hermes爆火,一个特别大的痛点就是太烧Token了。
关于怎么省Token,很多人研究了很多方法,比如用qmd等本地语义搜索,换便宜模型等。
最近刷到一个开源项目
@OpenSquilla,把省Token这件事儿做得很不错。
核心逻辑:智能模型路由 + 本地向量检索
简单问题,用便宜模型,复杂任务,用更厉害的模型。
智能路由本地完成,不消耗Token,换模型也是自动判断,不需要手动切。
后台还有模型调用成本统计,随时查看用了哪些模型,花了多少钱。
连续对话,让它写个抓取 Paulgraham 最新文章脚本,只消耗了5500 Token。
完成后会显示 COMBO ×2 ,像游戏的连击反馈,有意思,哈哈哈
相比完整重发,每轮只增量发送,缓存命中机制也实际传输 token 减少了 90%+
记忆系统做得也不错,快到上下文上限时,子 Agent 筛除关键内容再压缩,支持BM25 + 向量混合检索。
自动整理白天对话,第二天也能记得上下文,让 Cron job 定时抓新闻、跑任务,很省心。
安全上也有考量,高风险工具跑在沙箱里,按来源直接不明工具、Skill调用。
支持 Openclaw 一键迁移,记忆、配置、技能全能移过来,切换零成本。
安装很简单,跟Claude Code或Codex说:
带我安装配置: