LoPE - 用废话扰动拯救RL训练
废话的力量:用 Lorem Ipsum 扰动 Prompt 打破 GRPO 训练的零优势问题
Section titled “废话的力量:用 Lorem Ipsum 扰动 Prompt 打破 GRPO 训练的零优势问题”论文: Nonsense Helps: Prompt Space Perturbation Broadens Reasoning Exploration arXiv: 2605.05566 作者: Langlin Huang 等
这篇文章讲的不是什么复杂精妙的算法,而是一个简单到让人怀疑人生的发现:在 prompt 前面加一段废话(Lorem Ipsum),就能显著提升大语言模型的强化学习训练效果。
听起来像玩笑,但它是真的。而且背后有深刻的道理。
一、背景:GRPO 是什么,为什么它很重要
Section titled “一、背景:GRPO 是什么,为什么它很重要”从 RLHF 到 GRPO
Section titled “从 RLHF 到 GRPO”如果你关注过大语言模型的训练,大概率听过 RLHF(Reinforcement Learning from Human Feedback)。这是让模型从”能说话”进化到”说好话”的关键技术——用一个奖励模型来给模型的输出打分,然后用强化学习算法优化模型策略。
GRPO(Group Relative Policy Optimization)是近两年来在这个方向上的一个重要进展。它的核心思路非常朴素:
与其训练一个单独的价值网络(critic)来估计每个回答的好坏,不如让模型对同一个问题生成多个回答(rollout),然后在这组回答内部做相对比较。
打个比方:老师不需要给每篇作文打绝对分数,只需要把同一题目的 10 篇作文排个名,好的给正向激励,差的给负向激励。这省掉了训练 critic 的开销,简单高效。
正因为简单高效,GRPO 已经成为训练推理模型(如 DeepSeek-R1、QwQ 等)的标准方法之一。
GRPO 的优势计算
Section titled “GRPO 的优势计算”具体来说,对于一个 query q,模型采样 G 个 rollout {o_1, o_2, ..., o_G}。每个 rollout 获得一个奖励 r_i(通常由规则验证器给出,比如数学题的对错)。然后计算优势(advantage):
A_i = (r_i - mean(r)) / std(r)这个归一化的优势值就是训练信号:高于平均的获得正向梯度,低于平均的获得负向梯度。
二、零优势问题:当所有回答都错了
Section titled “二、零优势问题:当所有回答都错了”问题出在哪?
Section titled “问题出在哪?”现在想象一个场景:一道很难的数学题,模型生成了 8 个回答,全部答错了。
这时候 r_1 = r_2 = ... = r_8 = 0。
代入公式:A_i = (0 - 0) / 0 = ... 没定义。实际实现中通常会 clip 成 A = 0。
所有优势为零。训练信号消失。模型什么都没学到。
这就是所谓的零优势问题(zero-advantage problem),也叫优势坍塌(advantage collapse)。
为什么这很严重?
Section titled “为什么这很严重?”你可能会想:答错的题就跳过呗,有什么大不了的?
问题在于,恰恰是这些难题最需要训练信号。简单题模型本来就能答对,训练收益有限。真正能推动模型能力提升的,是那些刚好超出当前能力的难题。但正是因为难,所有 rollout 都失败的概率很高,尤其是采样数量有限时。
更要命的是规模问题:在复杂推理任务中,研究者报告某些 benchmark 上可能有 30-50% 的 query 遭遇零优势问题。这意味着你花钱花算力采样了大量数据,结果一半的训练信号被浪费了。
现有的解决方案及其局限
Section titled “现有的解决方案及其局限”最直观的方案:增加采样数量。如果采 8 个全错,那采 64 个呢?128 个呢?
这确实有用,但有两个问题:
- 计算成本线性增长——推理采样是 RL 训练中最昂贵的部分
- 收益递减——如果模型对某种 prompt 表述已经”陷入”了错误的推理模式,再多采样也只是在同一条死胡同里反复打转
另一个方案是调整采样温度(temperature)。提高温度可以让输出更多样。但高温也意味着更多无意义的乱码,而且温度是全局设置,会影响所有 query 的采样质量。
三、LoPE 的核心思想:用废话打开新思路
Section titled “三、LoPE 的核心思想:用废话打开新思路”LoPE(Lorem Perturbation for Exploration)的提出基于一个关键洞察:
模型对同一个问题的推理路径,高度依赖于 prompt 的表面形式(surface form)。即使语义完全相同,微小的表述差异也可能激活完全不同的推理路径。
这其实不难理解。想想人类做题:同一道数学题,如果你先读了一段关于古罗马的文字(虽然和题目无关),你的思维可能就处于稍微不同的状态,反而可能想到之前没想到的解法。这不是玄学——大脑的推理依赖于当前激活的概念网络,而任何输入都会影响哪些概念被激活。
LoPE 的具体做法
Section titled “LoPE 的具体做法”LoPE 的实现简单到一句话就能说完:
在原始 prompt 前面,随机拼接一段 Lorem Ipsum 文本,然后用这个扰动后的 prompt 重新采样。
原始 prompt: "求解方程 x² - 5x + 6 = 0"扰动后 prompt: "Lorem ipsum dolor sit amet consectetur adipiscing elit... 求解方程 x² - 5x + 6 = 0"就这样。没有额外的模型调用,没有复杂的采样策略,没有超参数调整(好吧,有一个:扰动文本的长度)。
为什么偏偏是 Lorem Ipsum?
Section titled “为什么偏偏是 Lorem Ipsum?”论文的关键发现是:不是所有扰动都有效。有效的扰动需要满足两个条件:
- 低困惑度(low perplexity):模型需要能”顺畅地处理”这段文本。如果加入的是随机乱码(如
xKj9#mLp),模型会被搞混,反而降低推理质量。 - 与任务无关(task-irrelevant):扰动文本不应该包含任何可能误导推理方向的信息。
Lorem Ipsum(拉丁文占位文本)完美满足这两个条件:
- 它是真正的拉丁文词汇组合,语言模型对它的困惑度很低
- 它是经典的排版占位文本,语义上完全不涉及任何具体任务
论文还验证了其他低困惑度的拉丁随机序列同样有效,说明这不是 Lorem Ipsum 的某种神秘特性,而是”低困惑度 + 任务无关”这个组合在起作用。
四、直觉理解:为什么废话能帮忙?
Section titled “四、直觉理解:为什么废话能帮忙?”类比一:模拟退火
Section titled “类比一:模拟退火”熟悉优化算法的读者可能会想到模拟退火(simulated annealing)。在模拟退火中,我们刻意加入随机噪声来帮助优化器跳出局部最优。噪声太大,优化方向全乱了;噪声太小,跳不出局部最优。
LoPE 中的 Lorem Ipsum 扮演的就是这个”恰到好处的噪声”的角色:
- 它足够”安静”(低困惑度),不会让模型完全跑偏
- 它又足够”不同”,能让模型的推理路径偏移到新的方向
类比二:换一种表述方式
Section titled “类比二:换一种表述方式”如果你在做一道题时卡住了,有经验的人会建议你”把题目重新表述一下”或者”换个角度看”。很多时候,仅仅是重新措辞就能让你发现之前忽略的条件或思路。
LoPE 本质上就是在自动地、系统性地”换一种表述方式”。通过在 prompt 前加不同的废话,模型面对的 token 序列不同了,注意力分布不同了,激活的内部表示也不同了——所有这些都可能导向一条新的推理路径。
类比三:给搜索引擎加随机后缀
Section titled “类比三:给搜索引擎加随机后缀”一个可能不太精确但很有趣的类比:有时候你在搜索引擎里搜不到想要的结果,但如果你在关键词后面加几个无关的词,反而能搜到。这是因为不同的查询词会匹配到不同的网页,而那些额外的词可能恰好改变了搜索结果的排序。
LoPE 做的事情类似:在”查询”(prompt)中加入无关内容,改变模型内部”检索”(推理)的结果。
五、实验结果
Section titled “五、实验结果”论文在 1.7B、4B、7B 三个规模的模型上进行了实验。核心结果:
- LoPE 显著优于原始 prompt 重采样:在遭遇零优势的困难 query 上,使用 LoPE 扰动后的重采样能显著提高至少一个 rollout 答对的比例。
- 效果随模型规模一致:从 1.7B 到 7B,LoPE 的改进效果都稳定存在。
- 不限于 Lorem Ipsum:其他由拉丁词汇随机组合的低困惑度文本同样有效,证明方法的普适性。
消融实验的启示
Section titled “消融实验的启示”论文的消融实验揭示了几个有趣的点:
- 高困惑度扰动无效甚至有害:随机乱码字符串(如随机字母+数字组合)会降低采样质量,因为模型花了大量容量在”理解”这些无意义的 token 上。
- 扰动位置很重要:把 Lorem Ipsum 放在 prompt 前面(prepend)比插在中间或放在后面效果更好。这符合直觉——前面的 token 会影响模型对后续内容的注意力分配。
- 扰动长度存在甜点:太短起不到扰动效果,太长会稀释原始 prompt 的信号。论文实验了不同长度,找到了一个合理的范围。
六、实际意义:对 RL 训练 LLM 的实践建议
Section titled “六、实际意义:对 RL 训练 LLM 的实践建议”立即可用的策略
Section titled “立即可用的策略”如果你正在用 GRPO 或类似的组相对策略训练推理模型,以下是 LoPE 带来的直接启发:
1. 遇到零优势不要放弃,先试试扰动
当某个 batch 中出现大量零优势 query 时,不要直接跳过。用 LoPE 对这些 query 重新采样,可能挽回大量训练信号。
2. 扰动要”温和”
选择低困惑度、任务无关的文本作为扰动。Lorem Ipsum 是首选,但任何满足这两个条件的文本都可以。避免使用与任务领域相关的文本(比如在数学题前加物理文本),因为这可能引入误导。
3. 扰动可以作为标准采样流程的一部分
不需要等到零优势出现才扰动。可以在采样阶段就为每个 query 生成多个扰动版本,增加 rollout 的多样性。这比简单增加采样数量更高效。
更深层的启示
Section titled “更深层的启示”LoPE 的成功揭示了 RL 训练 LLM 中一个容易被忽视的事实:
模型的推理能力受限于 prompt 的表面形式,而不仅仅是语义。优化采样策略时,不仅要考虑”采多少”,还要考虑”怎么采”。
这个洞察可以推广到更广泛的场景:
- Self-play / 对弈训练:在对弈式训练中,为模型提供不同的上下文扰动可能增加对弈的多样性。
- Best-of-N 采样:在推理时用扰动做 best-of-N 采样,可能比单一 prompt 的 N 次采样找到更好的答案。
- 数据增强:在 SFT 数据中加入适度的 prompt 扰动,可能提高模型的鲁棒性。
局限性与未来方向
Section titled “局限性与未来方向”论文也坦诚地指出了几个局限:
- 超大规模模型未验证:实验最大只到 7B,在 70B+ 模型上效果未知。大模型的推理路径是否同样受 prompt 表面形式影响,还需要验证。
- 扰动文本的最优选择:目前只验证了拉丁文低困惑度文本,其他语言的低困惑度文本(如中文的《千字文》)是否同样有效?
- 与温度采样的交互:LoPE 和温度调整如何最优结合?是否可以进一步减少总的采样量?
- 理论基础不足:为什么低困惑度的无关文本能偏移推理路径?这背后可能涉及表示学习和注意力机制的深层原理,目前只有实验验证,缺乏理论解释。
LoPE 是一个优雅的”小工作”——方法简单、实验扎实、洞察深刻。它不是那种会改变整个领域方向的大突破,但它解决了一个实际问题,并且提供了一个反直觉但有道理的视角:
有时候,往问题里加点”废话”,反而能帮你找到答案。
这让人想起科学史上很多类似的”简单但有效”的发现:Dropout 是往神经网络里随机扔掉一些神经元,BatchNorm 是把每层的输出做个归一化,而 LoPE 是往 prompt 里加段 Lorem Ipsum。共同点是:简单到让人不敢相信它有用,但它确实有用。
对于正在做 LLM 强化学习训练的工程师和研究者,LoPE 值得一试——实现成本几乎为零,但可能带来不小的收益。
参考文献: Huang, L. et al. “Nonsense Helps: Prompt Space Perturbation Broadens Reasoning Exploration.” arXiv:2605.05566, 2026.