注册并分享邀请链接,可获得视频播放与邀请奖励。

邓亚峰
@LongTermMemoryE
加入 December 2025
51 正在关注    269 粉丝
EverMemBench是我们针对多人协作场景构建的长期记忆评测Benchmark,悄悄上线几周,就有了几百次下载。 这个benchmark的主要特点是第一次支持了多人多群组真实场景(之前的LoCoMo等场景都非常简单),且提供了训练集和测试集,方便进行RL等实验,同时,提供了中间过程的GroundTruth,方便研究方法每一步的影响。特别是构建这个BenchMark的方法也很有启发性,可以用来构建模拟试验场生成数据。 欢迎做长期记忆的朋友评测,多提建议!
显示更多
我们昨天在 arXiv 上发了一篇新论文,填补了一个一直没人做的空白:多人、多群组场景下的记忆测试。 简单科普一下为什么这件事重要 之前测 AI 记忆能力的 benchmark,基本都是"两个人聊天"的场景: LoCoMo(2024):最早系统测试多轮对话记忆,但本质上就是两个人对话,上下文约 16K tokens,规模偏小 LongMemEval(2024,ICLR 2025):把规模推到了 115K–1.5M tokens,定义了五个核心记忆能力,但仍然是一对一对话 问题是,现实世界不是这样的。你同时在多个群聊里,跟不同的人聊不同的事,AI 能记住谁在哪个群说了什么吗? 这就是 EverMemBench 要回答的问题。 下图是我用 @claudeai 最新功能生成的,你还别说,挺好看。
显示更多