跳转到内容
输入关键词后按 Enter 打开第一个结果。

LoPE - 用废话扰动拯救RL训练

废话的力量:用 Lorem Ipsum 扰动 Prompt 打破 GRPO 训练的零优势问题

Section titled “废话的力量:用 Lorem Ipsum 扰动 Prompt 打破 GRPO 训练的零优势问题”

论文: Nonsense Helps: Prompt Space Perturbation Broadens Reasoning Exploration arXiv: 2605.05566 作者: Langlin Huang 等


这篇文章讲的不是什么复杂精妙的算法,而是一个简单到让人怀疑人生的发现:在 prompt 前面加一段废话(Lorem Ipsum),就能显著提升大语言模型的强化学习训练效果。

听起来像玩笑,但它是真的。而且背后有深刻的道理。


一、背景:GRPO 是什么,为什么它很重要

Section titled “一、背景:GRPO 是什么,为什么它很重要”

如果你关注过大语言模型的训练,大概率听过 RLHF(Reinforcement Learning from Human Feedback)。这是让模型从”能说话”进化到”说好话”的关键技术——用一个奖励模型来给模型的输出打分,然后用强化学习算法优化模型策略。

GRPO(Group Relative Policy Optimization)是近两年来在这个方向上的一个重要进展。它的核心思路非常朴素:

与其训练一个单独的价值网络(critic)来估计每个回答的好坏,不如让模型对同一个问题生成多个回答(rollout),然后在这组回答内部做相对比较。

打个比方:老师不需要给每篇作文打绝对分数,只需要把同一题目的 10 篇作文排个名,好的给正向激励,差的给负向激励。这省掉了训练 critic 的开销,简单高效。

正因为简单高效,GRPO 已经成为训练推理模型(如 DeepSeek-R1、QwQ 等)的标准方法之一。

具体来说,对于一个 query q,模型采样 G 个 rollout {o_1, o_2, ..., o_G}。每个 rollout 获得一个奖励 r_i(通常由规则验证器给出,比如数学题的对错)。然后计算优势(advantage):

A_i = (r_i - mean(r)) / std(r)

这个归一化的优势值就是训练信号:高于平均的获得正向梯度,低于平均的获得负向梯度。


二、零优势问题:当所有回答都错了

Section titled “二、零优势问题:当所有回答都错了”

现在想象一个场景:一道很难的数学题,模型生成了 8 个回答,全部答错了

这时候 r_1 = r_2 = ... = r_8 = 0

代入公式:A_i = (0 - 0) / 0 = ... 没定义。实际实现中通常会 clip 成 A = 0

所有优势为零。训练信号消失。模型什么都没学到。

这就是所谓的零优势问题(zero-advantage problem),也叫优势坍塌(advantage collapse)。

你可能会想:答错的题就跳过呗,有什么大不了的?

问题在于,恰恰是这些难题最需要训练信号。简单题模型本来就能答对,训练收益有限。真正能推动模型能力提升的,是那些刚好超出当前能力的难题。但正是因为难,所有 rollout 都失败的概率很高,尤其是采样数量有限时。

更要命的是规模问题:在复杂推理任务中,研究者报告某些 benchmark 上可能有 30-50% 的 query 遭遇零优势问题。这意味着你花钱花算力采样了大量数据,结果一半的训练信号被浪费了。

最直观的方案:增加采样数量。如果采 8 个全错,那采 64 个呢?128 个呢?

这确实有用,但有两个问题:

  1. 计算成本线性增长——推理采样是 RL 训练中最昂贵的部分
  2. 收益递减——如果模型对某种 prompt 表述已经”陷入”了错误的推理模式,再多采样也只是在同一条死胡同里反复打转

另一个方案是调整采样温度(temperature)。提高温度可以让输出更多样。但高温也意味着更多无意义的乱码,而且温度是全局设置,会影响所有 query 的采样质量。


三、LoPE 的核心思想:用废话打开新思路

Section titled “三、LoPE 的核心思想:用废话打开新思路”

LoPE(Lorem Perturbation for Exploration)的提出基于一个关键洞察:

模型对同一个问题的推理路径,高度依赖于 prompt 的表面形式(surface form)。即使语义完全相同,微小的表述差异也可能激活完全不同的推理路径。

这其实不难理解。想想人类做题:同一道数学题,如果你先读了一段关于古罗马的文字(虽然和题目无关),你的思维可能就处于稍微不同的状态,反而可能想到之前没想到的解法。这不是玄学——大脑的推理依赖于当前激活的概念网络,而任何输入都会影响哪些概念被激活。

LoPE 的实现简单到一句话就能说完:

在原始 prompt 前面,随机拼接一段 Lorem Ipsum 文本,然后用这个扰动后的 prompt 重新采样。

原始 prompt: "求解方程 x² - 5x + 6 = 0"
扰动后 prompt: "Lorem ipsum dolor sit amet consectetur adipiscing elit... 求解方程 x² - 5x + 6 = 0"

就这样。没有额外的模型调用,没有复杂的采样策略,没有超参数调整(好吧,有一个:扰动文本的长度)。

论文的关键发现是:不是所有扰动都有效。有效的扰动需要满足两个条件:

  1. 低困惑度(low perplexity):模型需要能”顺畅地处理”这段文本。如果加入的是随机乱码(如 xKj9#mLp),模型会被搞混,反而降低推理质量。
  2. 与任务无关(task-irrelevant):扰动文本不应该包含任何可能误导推理方向的信息。

Lorem Ipsum(拉丁文占位文本)完美满足这两个条件:

  • 它是真正的拉丁文词汇组合,语言模型对它的困惑度很低
  • 它是经典的排版占位文本,语义上完全不涉及任何具体任务

论文还验证了其他低困惑度的拉丁随机序列同样有效,说明这不是 Lorem Ipsum 的某种神秘特性,而是”低困惑度 + 任务无关”这个组合在起作用。


四、直觉理解:为什么废话能帮忙?

Section titled “四、直觉理解:为什么废话能帮忙?”

熟悉优化算法的读者可能会想到模拟退火(simulated annealing)。在模拟退火中,我们刻意加入随机噪声来帮助优化器跳出局部最优。噪声太大,优化方向全乱了;噪声太小,跳不出局部最优。

LoPE 中的 Lorem Ipsum 扮演的就是这个”恰到好处的噪声”的角色:

  • 它足够”安静”(低困惑度),不会让模型完全跑偏
  • 它又足够”不同”,能让模型的推理路径偏移到新的方向

如果你在做一道题时卡住了,有经验的人会建议你”把题目重新表述一下”或者”换个角度看”。很多时候,仅仅是重新措辞就能让你发现之前忽略的条件或思路。

LoPE 本质上就是在自动地、系统性地”换一种表述方式”。通过在 prompt 前加不同的废话,模型面对的 token 序列不同了,注意力分布不同了,激活的内部表示也不同了——所有这些都可能导向一条新的推理路径。

类比三:给搜索引擎加随机后缀

Section titled “类比三:给搜索引擎加随机后缀”

一个可能不太精确但很有趣的类比:有时候你在搜索引擎里搜不到想要的结果,但如果你在关键词后面加几个无关的词,反而能搜到。这是因为不同的查询词会匹配到不同的网页,而那些额外的词可能恰好改变了搜索结果的排序。

LoPE 做的事情类似:在”查询”(prompt)中加入无关内容,改变模型内部”检索”(推理)的结果。


论文在 1.7B、4B、7B 三个规模的模型上进行了实验。核心结果:

  1. LoPE 显著优于原始 prompt 重采样:在遭遇零优势的困难 query 上,使用 LoPE 扰动后的重采样能显著提高至少一个 rollout 答对的比例。
  2. 效果随模型规模一致:从 1.7B 到 7B,LoPE 的改进效果都稳定存在。
  3. 不限于 Lorem Ipsum:其他由拉丁词汇随机组合的低困惑度文本同样有效,证明方法的普适性。

论文的消融实验揭示了几个有趣的点:

  • 高困惑度扰动无效甚至有害:随机乱码字符串(如随机字母+数字组合)会降低采样质量,因为模型花了大量容量在”理解”这些无意义的 token 上。
  • 扰动位置很重要:把 Lorem Ipsum 放在 prompt 前面(prepend)比插在中间或放在后面效果更好。这符合直觉——前面的 token 会影响模型对后续内容的注意力分配。
  • 扰动长度存在甜点:太短起不到扰动效果,太长会稀释原始 prompt 的信号。论文实验了不同长度,找到了一个合理的范围。

六、实际意义:对 RL 训练 LLM 的实践建议

Section titled “六、实际意义:对 RL 训练 LLM 的实践建议”

如果你正在用 GRPO 或类似的组相对策略训练推理模型,以下是 LoPE 带来的直接启发:

1. 遇到零优势不要放弃,先试试扰动

当某个 batch 中出现大量零优势 query 时,不要直接跳过。用 LoPE 对这些 query 重新采样,可能挽回大量训练信号。

2. 扰动要”温和”

选择低困惑度、任务无关的文本作为扰动。Lorem Ipsum 是首选,但任何满足这两个条件的文本都可以。避免使用与任务领域相关的文本(比如在数学题前加物理文本),因为这可能引入误导。

3. 扰动可以作为标准采样流程的一部分

不需要等到零优势出现才扰动。可以在采样阶段就为每个 query 生成多个扰动版本,增加 rollout 的多样性。这比简单增加采样数量更高效。

LoPE 的成功揭示了 RL 训练 LLM 中一个容易被忽视的事实:

模型的推理能力受限于 prompt 的表面形式,而不仅仅是语义。优化采样策略时,不仅要考虑”采多少”,还要考虑”怎么采”。

这个洞察可以推广到更广泛的场景:

  • Self-play / 对弈训练:在对弈式训练中,为模型提供不同的上下文扰动可能增加对弈的多样性。
  • Best-of-N 采样:在推理时用扰动做 best-of-N 采样,可能比单一 prompt 的 N 次采样找到更好的答案。
  • 数据增强:在 SFT 数据中加入适度的 prompt 扰动,可能提高模型的鲁棒性。

论文也坦诚地指出了几个局限:

  1. 超大规模模型未验证:实验最大只到 7B,在 70B+ 模型上效果未知。大模型的推理路径是否同样受 prompt 表面形式影响,还需要验证。
  2. 扰动文本的最优选择:目前只验证了拉丁文低困惑度文本,其他语言的低困惑度文本(如中文的《千字文》)是否同样有效?
  3. 与温度采样的交互:LoPE 和温度调整如何最优结合?是否可以进一步减少总的采样量?
  4. 理论基础不足:为什么低困惑度的无关文本能偏移推理路径?这背后可能涉及表示学习和注意力机制的深层原理,目前只有实验验证,缺乏理论解释。

LoPE 是一个优雅的”小工作”——方法简单、实验扎实、洞察深刻。它不是那种会改变整个领域方向的大突破,但它解决了一个实际问题,并且提供了一个反直觉但有道理的视角:

有时候,往问题里加点”废话”,反而能帮你找到答案。

这让人想起科学史上很多类似的”简单但有效”的发现:Dropout 是往神经网络里随机扔掉一些神经元,BatchNorm 是把每层的输出做个归一化,而 LoPE 是往 prompt 里加段 Lorem Ipsum。共同点是:简单到让人不敢相信它有用,但它确实有用。

对于正在做 LLM 强化学习训练的工程师和研究者,LoPE 值得一试——实现成本几乎为零,但可能带来不小的收益。


参考文献: Huang, L. et al. “Nonsense Helps: Prompt Space Perturbation Broadens Reasoning Exploration.” arXiv:2605.05566, 2026.