跳转到内容
输入关键词后按 Enter 打开第一个结果。

LLM 知识更新:微调、RAG 与记忆模块的三岔路口

LLM 知识更新:微调、RAG 与记忆模块的三岔路口

Section titled “LLM 知识更新:微调、RAG 与记忆模块的三岔路口”

🐱 金豆教学 · 2026-05-20 · 面向有 ML 基础的读者


为什么 LLM 知识更新是个大问题?

Section titled “为什么 LLM 知识更新是个大问题?”

大语言模型的训练有一个根本性的矛盾:训练是静态的,世界是动态的。

GPT-4 在 2023 年的知识截止日期之后发生的一切——新的科学发现、政策变化、API 更新——它通通不知道。这不是”记性不好”,而是知识被 bake 进了模型权重里,更新知识就得重新训练,或者至少微调。

更严峻的是,知识不仅在增长,还在过时和被修正。一个 2024 年训练的模型可能告诉你某家公司的 CEO 是张三,但 2025 年已经换了。在医疗、法律、金融等高准确率要求的领域,过时的知识不只是”不准确”,而是”危险”。

这个问题本质上是:如何让一个已经训练好的大模型,持续拥有最新的、准确的知识,同时不破坏它已有的能力?

目前有三条主流路径,各有各的代价。


继续微调RAG记忆模块(MeMo 等)
核心思路用新数据更新模型权重不改模型,外挂知识库检索新增独立的可训练”记忆层”
推理成本无额外开销检索 + 拼接增加延迟轻量额外推理
知识更新速度慢(需重训)快(更新数据库即可)快(只需重训记忆模块)
灾难性遗忘风险
知识质量上限取决于训练数据受限于检索质量接近微调水平
部署复杂度低(单个模型)高(向量库 + 检索管线)中等(双模型)

路径一:继续微调(Continual Fine-tuning)

Section titled “路径一:继续微调(Continual Fine-tuning)”

最直接的想法:有了新知识,就拿新数据继续训练模型。具体形式包括:

  • 全量微调:直接在新数据上继续预训练或 SFT
  • 参数高效微调(LoRA 等):只更新少量参数,降低成本
  • 知识编辑(Knowledge Editing):定向修改模型中特定知识的表征,如 ROME、MEMIT
  1. 知识深度内化:微调后的知识真正融入了模型的参数空间,推理时不需要任何外部组件,延迟为零。
  2. 推理路径最短:不需要检索、不需要拼接 prompt,单次 forward pass 就能回答。
  3. 部署简单:就是一个模型文件,没有外部依赖。
  1. 灾难性遗忘(Catastrophic Forgetting):这是最致命的问题。用新数据训练往往会破坏模型在旧知识上的表现。你想让模型学会”2025 年的诺贝尔奖得主”,结果它把”2024 年的诺贝尔奖得主”也忘了。各种持续学习(Continual Learning)方法试图缓解这个问题,但没有完美解决方案。
  2. 成本极高:全量微调一个 70B 模型需要大量 GPU 资源和时间。即使是 LoRA,频繁更新也是一笔不小的开支。
  3. 知识冲突:新旧知识可能在参数空间中相互干扰,导致模型在相关领域整体质量下降。
  4. 可审计性差:你很难精确知道”哪些参数存了哪条知识”,所以很难做到精准更新。
  • 知识更新频率低(季度级或年度级)
  • 对推理延迟极度敏感(不能接受检索开销)
  • 新旧知识之间冲突不大
  • 有充足的计算资源

微调是”正确但昂贵”的路径。在知识不频繁变化、且对一致性要求极高的场景下(比如企业内部的知识库模型),它依然是最可靠的选择。但作为通用方案,它的更新成本让人望而却步。


完全不动模型,而是在模型外部搭建一个知识检索系统:

  1. 将新知识存入向量数据库(或图数据库)
  2. 用户提问时,先检索相关文档片段
  3. 将检索结果和用户问题一起拼成 prompt,交给模型回答
  1. 知识更新即时:往数据库里插入新文档就完事了,不需要任何模型训练。凌晨发布的新闻,秒级可查。
  2. 零遗忘风险:模型权重完全不变,自然不存在遗忘问题。
  3. 知识可溯源:每个回答都能标注来源文档,方便验证和审计。
  4. 成本可控:不需要 GPU 训练,只需要存储和检索的计算资源。
  1. 检索质量是天花板:这是 RAG 的核心瓶颈。如果检索不到相关信息,模型就只能”瞎编”(hallucinate)。如果检索到了但不够精确(noise),模型也可能被误导。
  2. 推理延迟增加:检索步骤增加了 50-500ms 的延迟,在实时对话场景中比较明显。
  3. 上下文窗口限制:能塞进去的检索结果有限,复杂的多跳推理任务表现不佳。
  4. chunk 切分和信息损失:文档被切成片段存储,跨片段的上下文信息容易丢失。
  • 知识更新频率极高(日级甚至实时)
  • 知识量庞大(企业文档、法律条文、产品手册)
  • 对知识可追溯性有要求
  • 允许一定的推理延迟

RAG 是目前工程落地最成熟的方案,没有之一。几乎所有需要”知识库问答”的生产系统都在用 RAG。但它的天花板很明确——再好的 RAG 也受限于检索质量。如果你需要的不是”找到相关文档”,而是”真正理解并融会贯通知识”,RAG 的表现会显著下降。它擅长”找到答案在哪里”,但不擅长”综合多个知识片段得出新结论”。


路径三:记忆模块方法(MeMo: Memory as a Model)

Section titled “路径三:记忆模块方法(MeMo: Memory as a Model)”

MeMo(Memory as a Model)提出了一个优雅的第三路径:把”记忆”和”推理”解耦成两个独立的模型。

具体来说:

  1. EXECUTIVE LLM(执行模型):一个冻结的、不做任何修改的大语言模型,负责推理和生成。你可以理解为”大脑”——它负责思考,但不负责记忆。
  2. MEMORY MODEL(记忆模型):一个较小的、专门训练的模型,负责存储和检索知识。你可以理解为”图书馆管理员”——它不懂推理,但对自己的馆藏了如指掌。

训练阶段:

  1. 将目标知识语料 $D$ 送入一个 GENERATOR 模型
  2. GENERATOR 将原始文档转化为”反思”(reflections)——本质上是高质量的 Q&A 对、知识摘要和关键关系提取
  3. 用这些 reflections 训练 MEMORY MODEL
  4. EXECUTIVE LLM 完全不动

推理阶段:

  1. 用户提问
  2. EXECUTIVE LLM 通过多轮对话协议与 MEMORY MODEL 交互,逐步获取所需知识
  3. EXECUTIVE LLM 基于获取的知识进行推理和回答

这就像一个专家(EXECUTIVE)和一个助手(MEMORY)之间的对话——专家负责思考,助手负责查资料。

  1. 更新成本远低于微调:只需重训 MEMORY MODEL(一个小模型),EXECUTIVE LLM 完全不动。成本可能只有全量微调的 1/10 到 1/100。
  2. 知识质量接近微调:与 RAG 的”关键词匹配”不同,MEMORY MODEL 是通过训练学会了对知识的深度理解。它不是在检索文本片段,而是在理解和合成知识
  3. 零遗忘风险:EXECUTIVE LLM 完全冻结,不可能遗忘。MEMORY MODEL 可以随时用新知识重训。
  4. 推理质量高:实验显示,MeMo 在多个知识密集型任务上超越了 RAG baseline。
  5. 知识可以有”理解”:这是和 RAG 最本质的区别。MEMORY MODEL 不是在存文档,而是在存”对知识的理解”。
  1. 双模型部署:需要同时部署两个模型,架构更复杂。
  2. 多轮交互延迟:EXECUTIVE 和 MEMORY 之间的多轮交互会增加推理延迟。
  3. 记忆模型的训练数据质量要求高:reflections 的质量直接决定了 MEMORY MODEL 的效果,而生成高质量的 reflections 本身需要较好的 GENERATOR。
  4. 新方法,生态不成熟:相比于 RAG 有 LangChain、LlamaIndex 等成熟工具链,MeMo 的工程实践还很早期。
  5. 知识规模上限待验证:对于超大规模知识库(百万级文档),MEMORY MODEL 能否有效编码所有知识尚不确定。
  • 需要比 RAG 更高的知识理解质量
  • 知识领域相对聚焦(比如某个专业领域的知识更新)
  • 可以接受双模型部署的架构复杂度
  • 对推理延迟有一定容忍度

MeMo 是目前我看到的最有前景的”第三条路”。它巧妙地避开了微调的遗忘问题和 RAG 的检索天花板,同时在知识质量上接近甚至超过了两者。核心创新不在于某个技术细节,而在于架构层面的解耦思想——将”记忆”从”推理”中独立出来,各自优化。

但它目前的局限也很明显:工程化程度不够、大规模知识场景未经验证、推理延迟是个实际问题。如果 2026-2027 年有成熟的工程框架出现(就像 RAG 有 LangChain 那样),这个方向可能会快速崛起。


其实,这三条路径可以放在一个”知识存储位置”的光谱上理解:

模型权重 ←—————→ 外部存储
| |
微调 记忆模块 RAG
(知识在 (知识在 (知识在
权重中) 专用模型中) 数据库中)
  • 微调:知识存在主模型的权重中 → 更新成本最高,推理效率最高
  • RAG:知识存在外部数据库中 → 更新成本最低,但检索是瓶颈
  • MeMo:知识存在一个独立的小模型中 → 取了一个折中位置

NeurIPS 2024 的一篇论文 WISE 提出了一个叫”不可能三角”的框架:在终身知识编辑场景下,可靠性(reliability)、泛化(generalization)和局部性(locality)三者不可兼得

  • 微调牺牲了局部性(改了 A 结果 B 也跟着变)
  • RAG 牺牲了泛化(只检索到了表层信息,无法深度推理)
  • MeMo 等记忆模块方法尝试通过架构解耦来突破这个三角

我的看法是:没有任何单一方案能解决所有问题。在实践中,最有效的策略很可能是混合架构——

  • 热知识(频繁更新的、时效性强的信息)→ RAG
  • 冷知识(稳定的、深度的领域知识)→ 微调或记忆模块
  • 推理能力→ EXECUTIVE LLM(冻结)

你的知识更新频率?
├── 实时/每日 → RAG(没得选,只有它能做到)
├── 每月/每季度 → 需要推理深度吗?
│ ├── 是 → MeMo 或 混合架构
│ └── 否 → RAG 就够了
└── 半年/年度 → 计算资源充足吗?
├── 是 → 微调(最干净)
└── 否 → MeMo
  1. RAG 依然是主流:工程成熟度碾压一切,短期内不会被取代。
  2. 记忆模块方法值得关注:MeMo、WISE 等工作指出了一个有潜力的方向,2026-2027 年可能会有更成熟的方案出现。
  3. 混合架构是未来:结合多种方法的优势,根据知识类型选择不同的更新策略。
  4. 知识编辑(Knowledge Editing)在快速进步:ROME、MEMIT、WISE 等方法让”精准修改模型中的特定知识”成为可能,虽然目前还主要局限于小规模实验。

  • MeMo: Memory as a Model (arXiv: 2605.15156)
  • WISE: Rethinking the Knowledge Memory for Lifelong Model Editing of LLMs (NeurIPS 2024)
  • Knowledge Editing for Large Language Models: A Survey (2024)

本文仅代表截至 2026 年 5 月的个人理解和判断。这个领域发展极快,欢迎讨论和指正。