LoPE - 用废话扰动拯救RL训练

废话的力量：用 Lorem Ipsum 扰动 Prompt 打破 GRPO 训练的零优势问题

论文: Nonsense Helps: Prompt Space Perturbation Broadens Reasoning Exploration arXiv: 2605.05566 作者: Langlin Huang 等

写在前面

这篇文章讲的不是什么复杂精妙的算法，而是一个简单到让人怀疑人生的发现：在 prompt 前面加一段废话（Lorem Ipsum），就能显著提升大语言模型的强化学习训练效果。

听起来像玩笑，但它是真的。而且背后有深刻的道理。

一、背景：GRPO 是什么，为什么它很重要

从 RLHF 到 GRPO

如果你关注过大语言模型的训练，大概率听过 RLHF（Reinforcement Learning from Human Feedback）。这是让模型从”能说话”进化到”说好话”的关键技术——用一个奖励模型来给模型的输出打分，然后用强化学习算法优化模型策略。

GRPO（Group Relative Policy Optimization）是近两年来在这个方向上的一个重要进展。它的核心思路非常朴素：

与其训练一个单独的价值网络（critic）来估计每个回答的好坏，不如让模型对同一个问题生成多个回答（rollout），然后在这组回答内部做相对比较。

打个比方：老师不需要给每篇作文打绝对分数，只需要把同一题目的 10 篇作文排个名，好的给正向激励，差的给负向激励。这省掉了训练 critic 的开销，简单高效。

正因为简单高效，GRPO 已经成为训练推理模型（如 DeepSeek-R1、QwQ 等）的标准方法之一。

GRPO 的优势计算

具体来说，对于一个 query q，模型采样 G 个 rollout {o_1, o_2, ..., o_G}。每个 rollout 获得一个奖励 r_i（通常由规则验证器给出，比如数学题的对错）。然后计算优势（advantage）：

A_i = (r_i - mean(r)) / std(r)

这个归一化的优势值就是训练信号：高于平均的获得正向梯度，低于平均的获得负向梯度。

二、零优势问题：当所有回答都错了

问题出在哪？

现在想象一个场景：一道很难的数学题，模型生成了 8 个回答，全部答错了。

这时候 r_1 = r_2 = ... = r_8 = 0。

代入公式：A_i = (0 - 0) / 0 = ... 没定义。实际实现中通常会 clip 成 A = 0。

所有优势为零。训练信号消失。模型什么都没学到。

这就是所谓的零优势问题（zero-advantage problem），也叫优势坍塌（advantage collapse）。

为什么这很严重？

你可能会想：答错的题就跳过呗，有什么大不了的？

问题在于，恰恰是这些难题最需要训练信号。简单题模型本来就能答对，训练收益有限。真正能推动模型能力提升的，是那些刚好超出当前能力的难题。但正是因为难，所有 rollout 都失败的概率很高，尤其是采样数量有限时。

更要命的是规模问题：在复杂推理任务中，研究者报告某些 benchmark 上可能有 30-50% 的 query 遭遇零优势问题。这意味着你花钱花算力采样了大量数据，结果一半的训练信号被浪费了。

现有的解决方案及其局限

最直观的方案：增加采样数量。如果采 8 个全错，那采 64 个呢？128 个呢？

这确实有用，但有两个问题：

计算成本线性增长——推理采样是 RL 训练中最昂贵的部分
收益递减——如果模型对某种 prompt 表述已经”陷入”了错误的推理模式，再多采样也只是在同一条死胡同里反复打转

另一个方案是调整采样温度（temperature）。提高温度可以让输出更多样。但高温也意味着更多无意义的乱码，而且温度是全局设置，会影响所有 query 的采样质量。

三、LoPE 的核心思想：用废话打开新思路

关键洞察

LoPE（Lorem Perturbation for Exploration）的提出基于一个关键洞察：

模型对同一个问题的推理路径，高度依赖于 prompt 的表面形式（surface form）。即使语义完全相同，微小的表述差异也可能激活完全不同的推理路径。

这其实不难理解。想想人类做题：同一道数学题，如果你先读了一段关于古罗马的文字（虽然和题目无关），你的思维可能就处于稍微不同的状态，反而可能想到之前没想到的解法。这不是玄学——大脑的推理依赖于当前激活的概念网络，而任何输入都会影响哪些概念被激活。

LoPE 的具体做法

LoPE 的实现简单到一句话就能说完：

在原始 prompt 前面，随机拼接一段 Lorem Ipsum 文本，然后用这个扰动后的 prompt 重新采样。

原始 prompt:   "求解方程 x² - 5x + 6 = 0"
扰动后 prompt:  "Lorem ipsum dolor sit amet consectetur adipiscing elit... 求解方程 x² - 5x + 6 = 0"

就这样。没有额外的模型调用，没有复杂的采样策略，没有超参数调整（好吧，有一个：扰动文本的长度）。

为什么偏偏是 Lorem Ipsum？

论文的关键发现是：不是所有扰动都有效。有效的扰动需要满足两个条件：

低困惑度（low perplexity）：模型需要能”顺畅地处理”这段文本。如果加入的是随机乱码（如 xKj9#mLp），模型会被搞混，反而降低推理质量。
与任务无关（task-irrelevant）：扰动文本不应该包含任何可能误导推理方向的信息。

Lorem Ipsum（拉丁文占位文本）完美满足这两个条件：

它是真正的拉丁文词汇组合，语言模型对它的困惑度很低
它是经典的排版占位文本，语义上完全不涉及任何具体任务

论文还验证了其他低困惑度的拉丁随机序列同样有效，说明这不是 Lorem Ipsum 的某种神秘特性，而是”低困惑度 + 任务无关”这个组合在起作用。

四、直觉理解：为什么废话能帮忙？

类比一：模拟退火

熟悉优化算法的读者可能会想到模拟退火（simulated annealing）。在模拟退火中，我们刻意加入随机噪声来帮助优化器跳出局部最优。噪声太大，优化方向全乱了；噪声太小，跳不出局部最优。

LoPE 中的 Lorem Ipsum 扮演的就是这个”恰到好处的噪声”的角色：

它足够”安静”（低困惑度），不会让模型完全跑偏
它又足够”不同”，能让模型的推理路径偏移到新的方向

类比二：换一种表述方式

如果你在做一道题时卡住了，有经验的人会建议你”把题目重新表述一下”或者”换个角度看”。很多时候，仅仅是重新措辞就能让你发现之前忽略的条件或思路。

LoPE 本质上就是在自动地、系统性地”换一种表述方式”。通过在 prompt 前加不同的废话，模型面对的 token 序列不同了，注意力分布不同了，激活的内部表示也不同了——所有这些都可能导向一条新的推理路径。

类比三：给搜索引擎加随机后缀

一个可能不太精确但很有趣的类比：有时候你在搜索引擎里搜不到想要的结果，但如果你在关键词后面加几个无关的词，反而能搜到。这是因为不同的查询词会匹配到不同的网页，而那些额外的词可能恰好改变了搜索结果的排序。

LoPE 做的事情类似：在”查询”（prompt）中加入无关内容，改变模型内部”检索”（推理）的结果。

五、实验结果

主要发现

论文在 1.7B、4B、7B 三个规模的模型上进行了实验。核心结果：

LoPE 显著优于原始 prompt 重采样：在遭遇零优势的困难 query 上，使用 LoPE 扰动后的重采样能显著提高至少一个 rollout 答对的比例。
效果随模型规模一致：从 1.7B 到 7B，LoPE 的改进效果都稳定存在。
不限于 Lorem Ipsum：其他由拉丁词汇随机组合的低困惑度文本同样有效，证明方法的普适性。

消融实验的启示

论文的消融实验揭示了几个有趣的点：

高困惑度扰动无效甚至有害：随机乱码字符串（如随机字母+数字组合）会降低采样质量，因为模型花了大量容量在”理解”这些无意义的 token 上。
扰动位置很重要：把 Lorem Ipsum 放在 prompt 前面（prepend）比插在中间或放在后面效果更好。这符合直觉——前面的 token 会影响模型对后续内容的注意力分配。
扰动长度存在甜点：太短起不到扰动效果，太长会稀释原始 prompt 的信号。论文实验了不同长度，找到了一个合理的范围。

六、实际意义：对 RL 训练 LLM 的实践建议

立即可用的策略

如果你正在用 GRPO 或类似的组相对策略训练推理模型，以下是 LoPE 带来的直接启发：

1. 遇到零优势不要放弃，先试试扰动

当某个 batch 中出现大量零优势 query 时，不要直接跳过。用 LoPE 对这些 query 重新采样，可能挽回大量训练信号。

2. 扰动要”温和”

选择低困惑度、任务无关的文本作为扰动。Lorem Ipsum 是首选，但任何满足这两个条件的文本都可以。避免使用与任务领域相关的文本（比如在数学题前加物理文本），因为这可能引入误导。

3. 扰动可以作为标准采样流程的一部分

不需要等到零优势出现才扰动。可以在采样阶段就为每个 query 生成多个扰动版本，增加 rollout 的多样性。这比简单增加采样数量更高效。

更深层的启示

LoPE 的成功揭示了 RL 训练 LLM 中一个容易被忽视的事实：

模型的推理能力受限于 prompt 的表面形式，而不仅仅是语义。优化采样策略时，不仅要考虑”采多少”，还要考虑”怎么采”。

这个洞察可以推广到更广泛的场景：

Self-play / 对弈训练：在对弈式训练中，为模型提供不同的上下文扰动可能增加对弈的多样性。
Best-of-N 采样：在推理时用扰动做 best-of-N 采样，可能比单一 prompt 的 N 次采样找到更好的答案。
数据增强：在 SFT 数据中加入适度的 prompt 扰动，可能提高模型的鲁棒性。

局限性与未来方向

论文也坦诚地指出了几个局限：

超大规模模型未验证：实验最大只到 7B，在 70B+ 模型上效果未知。大模型的推理路径是否同样受 prompt 表面形式影响，还需要验证。
扰动文本的最优选择：目前只验证了拉丁文低困惑度文本，其他语言的低困惑度文本（如中文的《千字文》）是否同样有效？
与温度采样的交互：LoPE 和温度调整如何最优结合？是否可以进一步减少总的采样量？
理论基础不足：为什么低困惑度的无关文本能偏移推理路径？这背后可能涉及表示学习和注意力机制的深层原理，目前只有实验验证，缺乏理论解释。

七、总结

LoPE 是一个优雅的”小工作”——方法简单、实验扎实、洞察深刻。它不是那种会改变整个领域方向的大突破，但它解决了一个实际问题，并且提供了一个反直觉但有道理的视角：

有时候，往问题里加点”废话”，反而能帮你找到答案。

这让人想起科学史上很多类似的”简单但有效”的发现：Dropout 是往神经网络里随机扔掉一些神经元，BatchNorm 是把每层的输出做个归一化，而 LoPE 是往 prompt 里加段 Lorem Ipsum。共同点是：简单到让人不敢相信它有用，但它确实有用。

对于正在做 LLM 强化学习训练的工程师和研究者，LoPE 值得一试——实现成本几乎为零，但可能带来不小的收益。

参考文献: Huang, L. et al. “Nonsense Helps: Prompt Space Perturbation Broadens Reasoning Exploration.” arXiv:2605.05566, 2026.