Memento：智能体持续进化新范式

引言：从电影《记忆碎片》说起

不知道各位是否看过电影《记忆碎片》(Memento)？主角因患上短期失忆症，只能依赖身上的纹身和拍立得照片这些外部“记忆”来拼凑身份、追寻真相。这听起来很极端，但这正是今天绝大多数 AI 智能体的日常——一种根本性的“失忆症” (Amnesia)。每一次交互都是一次“冷启动”，它们被困在一个“永恒的当下”，无法从过去的成败中积累经验。

为了治愈它，业界的主流疗法是“微调” (Fine-Tuning)，试图通过高成本的“脑部手术”将新知识“烧录”进模型参数。但这不仅代价高昂，还面临着“灾难性遗忘”的风险——学会了新技能，忘记了旧本领。

正是在这一背景下，华为团队提出了与《记忆碎片》同名论文 Memento [2508.16153] Memento: Fine-tuning LLM Agents without Fine-tuning LLMs，该方案并非对现有技术方案的修补，而是提出了一条全新的路线。它选择为失忆的智能体配备一本能够自我更新、并教会它何时翻阅的“神奇笔记”。其核心思想是：在完全冻结 LLM 参数的前提下，通过外部记忆和在线强化学习，实现智能体的低成本、持续性自我进化。

本文将对 Memento 的核心技术方案进行一次深入的剖析，并将其置于自进化智能体的前沿技术矩阵中，通过与

Memp (显性知识蒸馏) Memp: Exploring Agent Procedural Memory
SE-Agent (隐性轨迹优化) SE-Agent: Self-Evolution Trajectory Optimization in Multi-Step Reasoning with LLM-Based Agents

等不同技术路线的对比，揭示 Memento 设计哲学背后的深刻权衡，并探讨其对构建真正具备终身学习能力的智能体所带来的启示与挑战。

第一部分：不下手术台的“大脑”进化——Memento 的三大支柱

Memento 的核心思想是：学习的重心不应在模型内部的参数，而应在外化的记忆系统及其检索策略中。它通过三大理论支柱的精妙融合，构建了一个无需对 LLM 进行梯度更新即可实现自我完善的闭环系统。

1.1 基石：从“失忆”到“有迹可循”，M-MDP 的形式化魔术

标准的马尔可夫决策过程 (MDP) 假设当前状态足以做出最优决策。然而，现实世界任务往往是“非马尔可夫”的，充满了部分可观测性。Memento 通过引入记忆增强马尔可夫决策过程 (Memory-augmented MDP, M-MDP) 框架，从形式上解决了这个问题。它将一个外部的、可动态增长的记忆空间 (Memory Space) 显式地整合进智能体的状态定义中。在每个决策点，智能体的状态不仅是当前的环境观测 s，还包括整个记忆库 M。

这一形式化手段，将一个复杂的非马尔可夫问题，提升到了一个更高维度但满足马尔可夫性质的空间中进行求解，为“基于历史经验进行决策”提供了坚实的数学基础。当然，这也带来了状态空间 (s, M) 剧烈膨胀的挑战。Memento 的精妙之处在于，它并未直接学习覆盖整个 M 的函数，而是通过一个轻量级网络来近似价值函数，且其输入是 s 和经过高效检索筛选后的候选案例子集，从而在工程上实现了可行性。

1.2 认知启发：基于案例的推理 (Case-Based Reasoning, CBR)

受人类通过类比过往经历解决新问题的启发，Memento 将其记忆库组织为一系列的“案例” (Cases)。每一个案例都是一个结构化的元组，包含任务描述、行动轨迹、以及最终的任务成败结果 (task, trajectory, outcome)。这种方法遵循了经典的 CBR 循环 Case-based reasoning - Wikipedia：

检索 (Retrieve): 面对新任务，从记忆库 (Case Bank) 中寻找最相似的历史案例。
重用 (Reuse): 将检索到的案例作为参考，指导当前任务的规划与行动。
修正 (Revise): LLM 根据新旧任务的差异，对旧案例的解决方案进行适应性调整。
保留 (Retain): 将本次任务的完整轨迹作为新案例存入 Case Bank，供未来使用。

通过这种方式，智能体学习的不是孤立的事实，而是解决问题的完整“流程性知识” (procedural knowledge)，这比传统的检索增强生成 (RAG) 在认知层面上更进了一步。

1.3 引擎：不止于回忆，更是学会“如何恰当地回忆”的智慧

拥有记忆库只是第一步，如何智能地“使用”记忆才是核心。为此，Memento 引入了一个神经案例选择策略，并通过在线强化学习对其进行持续优化。

具体而言，它采用了最大熵强化学习框架下的软 Q 学习 (Soft Q-Learning) 算法。

工作机制: 智能体的“动作”不再是直接与环境交互的行动，而是在其“心智”内部选择一个“案例”作为参考。其动作空间就是 Case Bank 中所有案例的集合。系统维护一个 Q 函数 Q(s, c)，用于评估在当前状态 s 下，选择参考案例 c 的长期价值。每当任务完成并获得环境反馈（成功/失败的奖励），这个 Q 函数就会被更新，从而优化案例选择策略，而 LLM 本身参数始终冻结。
为何选择软 Q 学习: 与总是选择最优动作的传统 Q 学习不同，软 Q 学习通过最大化熵正则化的奖励，学习到一个随机性策略。这意味着 Q 值越高的案例被选择的概率越大，但 Q 值较低的案例也有一定概率被选中。这种机制带来了两大优势：
1. 探索性 (Exploration): 鼓励智能体偶尔尝试“看起来不那么好”的经验，可能发现更具创造性的解决方案。
2. 鲁棒性 (Robustness): 最大熵框架鼓励策略在面对相似的 Q 值时，倾向于一种接近“均匀”的概率分布，而不是像传统 Q-Learning 那样固执地选择最高值。这意味着，如果最优路径 A 和次优路径 B 的价值差不多，智能体不会总是走 A，而是会以一定概率走 B，这种特性使其在动态或有噪声的环境中表现更稳定。

综上，Memento 实现了一个优雅的解耦：冻结的 LLM 扮演“劳力”，负责具体推理与行动；而一个轻量级的、在线学习的策略网络则扮演“心智”，负责进行高阶的战略决策——决定用哪段历史经验来指导当前的“劳力”。

第二部分：横向对比——Memento 在自进化智能体版图中的位置

从上述描述，我们可以看出，memento 貌似定位于一个无需昂贵微调就能自我进化的智能体，要客观评价这套技术方案，还必须将其与同期的其他技术对比起来看。本文选取了最近比较有代表性的2篇论文：Memp 与 SE-Agent。

接下来我们一块看下它与同期的“竞争者”们相比，究竟有何差异。

2.1 路线之争：Memp vs. Memento，两种“程序性记忆”的实现

Memento 和 Memp 本质上都在构建一种程序性记忆 (Procedural Memory)，即学会“如何从过往经历中获取经验教训”的技能。但它们的实现路径和知识形态截然不同。

我们可以用一个认知科学的类比来理解：所有经验最初都以情景记忆 (Episodic Memory) 的形式存在（即 Memento 中的 Case Bank，一段段具体的经历）。那么，如何利用这些情景记忆形成技能（程序性记忆）呢？

Memento 的路径：学习一个隐性的、动态的检索策略。它没有把经验本身总结成规则，而是学会了“在当前情境下，我应该回想哪一段往事”这项元技能。知识内嵌于这个选择策略网络中。
Memp 的路径：进行显性的、静态的知识蒸馏。它将多段成功的“情景”进行提炼、抽象，总结成人类可读的、普遍适用的“操作手册”（指令和脚本）。知识固化在提炼出的脚本中。

下表揭示了两者在哲学层面的根本差异：

维度 (Dimension)	Memento (arXiv:2508.16153)	Memp (arXiv:2508.06433)
知识形态	隐性的 (Implicit)：知识内嵌于“何时检索何种案例”的选择策略中。	显性的 (Explicit)：知识被蒸馏为结构化的、人类可读的指令和脚本。
学习对象	学习一个动态的检索策略。智能体在学习“如何更好地回忆”。	学习一个静态的知识库。智能体在学习“应该记住什么内容的精华”。
核心优势	灵活性与泛化性：通过 RL 探索，可能发现非直观的案例组合，对新任务适应性更强。	可解释性与可迁移性：蒸馏出的脚本清晰易懂，且可从强模型迁移至弱模型。
主要挑战	信用分配：在长序列任务中，难以判断哪一次案例检索对最终的成功贡献最大。	抽象的脆弱性：蒸馏过程可能丢失关键细节，或产生在特定情况下失效的过度泛化规则。

2.2 经验的角色：Memento vs. SE-Agent，借鉴历史还是创造未来？

SE-Agent (arXiv:2508.02085) 则走了另一条更激进的路线：隐性轨迹演化。它揭示了“利用经验”的两种不同层次：

Memento: 将历史经验作为参考 (Reference)，通过类比推理来指导新问题的解决路径。
SE-Agent: 将历史经验作为原料 (Raw Material)，通过类似遗传算法的重组、变异等操作，从一个解决方案种群中“进化”出全新的、更优的解决方案。知识的流向是多向融合的，实现了“跨轨迹启发”。

如果说 Memento 是一个善于借鉴历史的谋士，那么 SE-Agent 更像一个基于过往灵感进行大胆创新的发明家。

第三部分：前沿思考与批判性审视

Memento 的架构虽然精巧，但并非没有软肋。接下来，让我们从更广阔的行业背景出发，思考其面临的深层挑战和未来的发展方向。

3.1 计算成本的转移，而非消失：经济性与性能的权衡

Memento 的一个核心卖点是避免了 LLM 微调的高昂计算成本。但这并非没有代价。它本质上是一种计算成本的转移，而非消失。

成本从一次性的、离线的训练阶段，转移到了每一次的、在线的推理阶段。在推理时，Memento 需要执行额外的检索、Q 网络评估等操作，并且输入给 LLM 的上下文 (Prompt) 因为包含了案例而变得更长。

更重要的是，它引入了一个深刻的权衡：

经济性：Memento 的 RL 训练只发生在一个轻量级的策略网络上，而非数十亿参数的 LLM，这使得持续学习的成本大幅降低。
性能天花板：决策的“智慧”上限，在某种程度上被这个小小的策略网络所限制。它能否学会像一个经过端到端微调的、参数量大几个数量级的 LLM 那样复杂的决策逻辑？这依然是一个开放问题。这种架构可能在获得经济性的同时，也牺牲了一定的性能上限。

3.2 致命的阿喀琉斯之踵：谁来点燃“从0到1”的第一把火？

无论是 Memento、Memp 还是 SE-Agent，它们的学习循环都依赖于一个初始的、高质量的经验池来“自举”（Bootstrap）。Memento 的 RL 策略需要有足够多样的成败案例才能学到有意义的 Q 值。这意味着，这些所谓的“自进化”（Self-Evolving）系统，在很大程度上是“自我改进”（Self-Improving）系统。它们都隐含地假设了一个强大的基础模型或一个精心设计的环境，能为其提供最初的“成功火种”。在那些奖励极其稀疏、初始成功率极低的开放世界中，这些系统如何完成“从0到1”的冷启动，仍然是一个悬而未决的难题。

3.3 记忆污染与偏见放大：心智内部的“回音室效应”

Memento 的在线学习机制内生了一个危险的反馈闭环。智能体的行为由其检索到的记忆指导，而这些行为产生的结果又被作为新记忆存入库中。如果初始经验或环境奖励存在微小偏见，RL 策略可能会学会优先检索这些有偏见的案例，从而引导智能体产生更多有偏见的行为，进一步“污染”记忆库。这个过程可能形成一个强大的自我强化循环，一个智能体心智内部的“回音室效应”。如何设计有效的机制来监控和清理记忆库，防止价值漂移，是这类系统走向实用前必须解决的核心安全问题。

3.4 学习的边界：策略学习 vs. 知识学习

这自然引出了一个更深层次的，甚至带有一丝哲学意味的问题：对于一个已经拥有海量世界知识的 LLM 而言，学习的瓶颈究竟是“知道得不够多”（知识问题），还是“不会灵活运用”（策略问题）？

Memento 的成功暗示，后者可能是一个更关键、也更具杠杆效应的优化点。未来的智能体架构，或许会看到一种更明确的分工：由超大规模的静态基础模型扮演“世界知识库”的角色，而由多个轻量级的、可在线持续学习的“策略模块”（如 Memento 的案例选择器）负责在特定任务和环境中进行快速适应和优化。

结论：从“训练模型”到“培育心智”

Memento 的历史贡献，可能不在于它是否是终极解决方案，而在于它清晰地定义并验证了一种新的智能体进化范式。它将学习的焦点从对模型参数的昂贵“外科手术”，转移到了对外部经验的智慧“内省”上，在持续学习领域的核心矛盾——稳定性 (Stability) 与可塑性 (Plasticity) 之间，找到了一条平衡之道。

这项工作，连同 Memp、SE-Agent 等前沿探索，共同标志着一个时代的转折：我们正在从训练静态的知识模型，迈向培育动态的经验心智。

这最终向我们提出了一个值得所有从业者深思的开放性问题：

当一个智能体的智慧，越来越多地由它选择记住和参考的经验所定义时，我们真正的任务，究竟是构建一个更强大的“大脑”（LLM），还是设计一个更智慧的“记忆筛选机制”？

或许，答案两者都是。未来的通用人工智能，可能既需要一个知识渊博的“静态大脑”作为基础，也需要一个在与世界交互中不断雕琢自身经验与反思能力的“活性心智”。Memento 的探索，是这条漫长道路上一块极其重要的路标。它告诉我们，通往真正智能的阶梯，或许就铺设在“经验”这座宝库之中。而我们，才刚刚学会如何找到打开宝库大门的钥匙。

Memory

#Memory #Self-Evolving #RAG

Memento：智能体持续进化新范式

https://m1n9x.vercel.app/2025/09/07/Memento：智能体持续进化新范式/

作者

admin

发布于

2025年9月7日

许可协议

超越上下文窗口：字节 M3-Agent 如何为健忘的 AI 注入长期记忆下一篇