RLHF 三层解读:从厨房比喻到开放问题
选择 RLHF(基于人类反馈的强化学习)作为今天的主题——它是 ChatGPT 背后的关键技术,也是当前 AI 对齐研究的核心战场。
🟢 入门:一场关于「好答案」的考试
Section titled “🟢 入门:一场关于「好答案」的考试”想象你开了一家餐厅,招了一个菜鸟厨师。他做出来的菜能吃,但总差点意思——有时候太咸,有时候摆盘乱七八糟。你怎么教他?
你不会每次都说「盐放少了,多放 3 克」——你做不到这么精确。你只能尝一口,说「这次不错,上次太咸了」。厨师会根据你的反馈慢慢调整,做出越来越合你口味的菜。
RLHF 干的就是这件事,只不过「厨师」是 AI,「口味」是人类的偏好。
具体分三步:
- 让厨师先学基本功(预训练):AI 先读大量文本,学会了说话的基本能力。这时候它能说会道,但不一定说你想听的。
- 请评委打分(训练奖励模型):让人类给 AI 的回答排序——A 比 B 好,B 比 C 好。用这些排序训练一个「评委 AI」,它能模仿人类的品味。
- 让厨师讨好评委(强化学习):AI 开始疯狂生成回答,评委给每个回答打分。AI 会朝着高分方向优化,越来越「讨人喜欢」。
ChatGPT 能用,核心就是这个流程。它让 AI 不只是「会说」,而是「说得让人觉得好」。
🟡 中级:奖励模型 + PPO 的工程细节
Section titled “🟡 中级:奖励模型 + PPO 的工程细节”RLHF 解决了语言模型的核心问题:预训练优化的是下一 token 的预测概率,但这不等于「好的回答」。
第一步:SFT(监督微调)
Section titled “第一步:SFT(监督微调)”用少量高质量的 prompt-response 对微调基础模型。让模型从「随机生成器」变成「能听从指令的助手」。
第二步:训练奖励模型(RM)
Section titled “第二步:训练奖励模型(RM)”让标注员对同一 prompt 的多个回答进行排序,收集偏好数据 (x, y_win, y_lose)。用 Bradley-Terry 模型建模:
P(y_w > y_l | x) = exp(r(x,y_w)) / (exp(r(x,y_w)) + exp(r(x,y_l)))
关键设计选择:
- RM 训练数据要多样,否则模型会对特定风格 overfit(比如变得过于啰嗦)
- 排序比打分更可靠——人类很难给出绝对分数,但「A 比 B 好」的判断更稳定
第三步:PPO 强化学习
Section titled “第三步:PPO 强化学习”用 PPO 优化策略模型,同时用 KL 惩罚约束模型不要偏离太远(具体公式见完整版教程)。
为什么需要 KL 惩罚? 没有 KL 约束的话,模型会 reward hacking——找到 RM 的漏洞来骗取高分。
实际工程中的坑
Section titled “实际工程中的坑”- RM 泛化能力有限,PPO 优化几轮后评分就不可靠了
- PPO 需要 4 个模型同时跑,显存开销巨大
- InstructGPT 花了约 $2M 的标注费用
🔴 高级:深层问题与前沿替代方案
Section titled “🔴 高级:深层问题与前沿替代方案”RLHF 可形式化为带 KL 约束的优化问题:最大化期望 reward,同时约束策略偏离参考模型的程度不超过阈值 ε。
- Reward Model 的 expressivity 瓶颈:Bradley-Terry 假设偏好传递性,但人类真实偏好不一定满足
- Reward Hacking 是 Goodhart 定律的直接体现:代理指标被优化后就不再可靠
- PPO 样本效率低、工程复杂度高:4 个模型的显存需求使大模型训练成本极高
- 偏好标注的固有噪声:标注员间 agreement 有限(Cohen’s kappa 通常 0.5-0.7)
前沿替代方案
Section titled “前沿替代方案”- DPO (Direct Preference Optimization):跳过 RM 训练,直接用偏好数据优化策略,无需 RL 训练循环
- GRPO (Group Relative Policy Optimization):DeepSeek 提出,去掉 value model,用 group statistics 作为 baseline
- RLAIF (RL from AI Feedback):用更强模型替代人类标注,但引入模型偏见循环风险
- Self-Rewarding Language Models:模型自己生成 reward signal,但仍面临 reward drift
- 能否设计 distribution shift 下依然可靠的 RM?
- 如何实现多目标对齐的 Pareto 前沿探索?
- 推理任务的 sparse reward 问题如何解决?
- 模型能力超过标注员时,如何突破 preference data 的 quality ceiling?
金豆的思考: RLHF 是当前 LLM 对齐的基石,但它的本质是把人类偏好压缩成一个标量函数——而「好」本身可能是多维度、上下文相关的。这个根本矛盾决定了 RLHF 只是一个过渡方案。真正的人类对齐,可能需要完全不同的范式。 🐱