邓亚峰 (@LongTermMemoryE)

邓亚峰已转帖

艾略特@elliotchen100

2026.04.01 03:05

稍微剧透一下 1. @EverMind 的 MSA 论文被 AlphaXiv 选中发表了，流量还非常不错 2. MSA 的 Inference 本周会开源

转发到社区

邓亚峰@LongTermMemoryE

2026.03.20 14:19

MSA这么基础的工作，还得到了大家这么高的关注。 GitHub 链接（欢迎继续点星⭐️）：论文链接：

显示更多

转发到社区

邓亚峰@LongTermMemoryE

2026.03.14 16:03

EverMemBench是我们针对多人协作场景构建的长期记忆评测Benchmark，悄悄上线几周，就有了几百次下载。这个benchmark的主要特点是第一次支持了多人多群组真实场景（之前的LoCoMo等场景都非常简单），且提供了训练集和测试集，方便进行RL等实验，同时，提供了中间过程的GroundTruth，方便研究方法每一步的影响。特别是构建这个BenchMark的方法也很有启发性，可以用来构建模拟试验场生成数据。欢迎做长期记忆的朋友评测，多提建议！

显示更多

艾略特@elliotchen100

2026.03.13 09:26

我们昨天在 arXiv 上发了一篇新论文，填补了一个一直没人做的空白：多人、多群组场景下的记忆测试。简单科普一下为什么这件事重要之前测 AI 记忆能力的 benchmark，基本都是"两个人聊天"的场景： LoCoMo（2024）：最早系统测试多轮对话记忆，但本质上就是两个人对话，上下文约 16K tokens，规模偏小 LongMemEval（2024，ICLR 2025）：把规模推到了 115K–1.5M tokens，定义了五个核心记忆能力，但仍然是一对一对话问题是，现实世界不是这样的。你同时在多个群聊里，跟不同的人聊不同的事，AI 能记住谁在哪个群说了什么吗？这就是 EverMemBench 要回答的问题。下图是我用 @claudeai 最新功能生成的，你还别说，挺好看。

显示更多

转发到社区

邓亚峰@LongTermMemoryE

2026.03.14 15:51

随着模型能力的提升，智能系统的行为将主要取决于提供给LLM的context。其核心在于，如何基于已有的memory（上下文历史）构建合理的context送给LLM。所以，context/memory/harness成为与LLM能力独立的一极。如何更低成本、更高准确率提取，就成为Agent技术的关键。memory将成为agent的核心组件。

显示更多

Rohan Paul@rohanpaul_ai

2026.03.14 12:10

In 2024 the question was: which LLM do we use? In 2025 the question is: how do we make agents actually work in production? In 2026 the question will be: which context layer are we building on? Here is why that shift is already underway:

显示更多