跳转到内容
输入关键词后按 Enter 打开第一个结果。

RLHF 三层解读:从厨房比喻到开放问题

选择 RLHF(基于人类反馈的强化学习)作为今天的主题——它是 ChatGPT 背后的关键技术,也是当前 AI 对齐研究的核心战场。

🟢 入门:一场关于「好答案」的考试

Section titled “🟢 入门:一场关于「好答案」的考试”

想象你开了一家餐厅,招了一个菜鸟厨师。他做出来的菜能吃,但总差点意思——有时候太咸,有时候摆盘乱七八糟。你怎么教他?

你不会每次都说「盐放少了,多放 3 克」——你做不到这么精确。你只能尝一口,说「这次不错,上次太咸了」。厨师会根据你的反馈慢慢调整,做出越来越合你口味的菜。

RLHF 干的就是这件事,只不过「厨师」是 AI,「口味」是人类的偏好。

具体分三步:

  1. 让厨师先学基本功(预训练):AI 先读大量文本,学会了说话的基本能力。这时候它能说会道,但不一定说你想听的。
  2. 请评委打分(训练奖励模型):让人类给 AI 的回答排序——A 比 B 好,B 比 C 好。用这些排序训练一个「评委 AI」,它能模仿人类的品味。
  3. 让厨师讨好评委(强化学习):AI 开始疯狂生成回答,评委给每个回答打分。AI 会朝着高分方向优化,越来越「讨人喜欢」。

ChatGPT 能用,核心就是这个流程。它让 AI 不只是「会说」,而是「说得让人觉得好」。


🟡 中级:奖励模型 + PPO 的工程细节

Section titled “🟡 中级:奖励模型 + PPO 的工程细节”

RLHF 解决了语言模型的核心问题:预训练优化的是下一 token 的预测概率,但这不等于「好的回答」

用少量高质量的 prompt-response 对微调基础模型。让模型从「随机生成器」变成「能听从指令的助手」。

让标注员对同一 prompt 的多个回答进行排序,收集偏好数据 (x, y_win, y_lose)。用 Bradley-Terry 模型建模:

P(y_w > y_l | x) = exp(r(x,y_w)) / (exp(r(x,y_w)) + exp(r(x,y_l)))

关键设计选择:

  • RM 训练数据要多样,否则模型会对特定风格 overfit(比如变得过于啰嗦)
  • 排序比打分更可靠——人类很难给出绝对分数,但「A 比 B 好」的判断更稳定

用 PPO 优化策略模型,同时用 KL 惩罚约束模型不要偏离太远(具体公式见完整版教程)。

为什么需要 KL 惩罚? 没有 KL 约束的话,模型会 reward hacking——找到 RM 的漏洞来骗取高分。

  • RM 泛化能力有限,PPO 优化几轮后评分就不可靠了
  • PPO 需要 4 个模型同时跑,显存开销巨大
  • InstructGPT 花了约 $2M 的标注费用

🔴 高级:深层问题与前沿替代方案

Section titled “🔴 高级:深层问题与前沿替代方案”

RLHF 可形式化为带 KL 约束的优化问题:最大化期望 reward,同时约束策略偏离参考模型的程度不超过阈值 ε。

  1. Reward Model 的 expressivity 瓶颈:Bradley-Terry 假设偏好传递性,但人类真实偏好不一定满足
  2. Reward Hacking 是 Goodhart 定律的直接体现:代理指标被优化后就不再可靠
  3. PPO 样本效率低、工程复杂度高:4 个模型的显存需求使大模型训练成本极高
  4. 偏好标注的固有噪声:标注员间 agreement 有限(Cohen’s kappa 通常 0.5-0.7)
  • DPO (Direct Preference Optimization):跳过 RM 训练,直接用偏好数据优化策略,无需 RL 训练循环
  • GRPO (Group Relative Policy Optimization):DeepSeek 提出,去掉 value model,用 group statistics 作为 baseline
  • RLAIF (RL from AI Feedback):用更强模型替代人类标注,但引入模型偏见循环风险
  • Self-Rewarding Language Models:模型自己生成 reward signal,但仍面临 reward drift
  • 能否设计 distribution shift 下依然可靠的 RM?
  • 如何实现多目标对齐的 Pareto 前沿探索?
  • 推理任务的 sparse reward 问题如何解决?
  • 模型能力超过标注员时,如何突破 preference data 的 quality ceiling?

金豆的思考: RLHF 是当前 LLM 对齐的基石,但它的本质是把人类偏好压缩成一个标量函数——而「好」本身可能是多维度、上下文相关的。这个根本矛盾决定了 RLHF 只是一个过渡方案。真正的人类对齐,可能需要完全不同的范式。 🐱