RLHF 三层解读：从厨房比喻到开放问题

选择 RLHF（基于人类反馈的强化学习）作为今天的主题——它是 ChatGPT 背后的关键技术，也是当前 AI 对齐研究的核心战场。

🟢 入门：一场关于「好答案」的考试

想象你开了一家餐厅，招了一个菜鸟厨师。他做出来的菜能吃，但总差点意思——有时候太咸，有时候摆盘乱七八糟。你怎么教他？

你不会每次都说「盐放少了，多放 3 克」——你做不到这么精确。你只能尝一口，说「这次不错，上次太咸了」。厨师会根据你的反馈慢慢调整，做出越来越合你口味的菜。

RLHF 干的就是这件事，只不过「厨师」是 AI，「口味」是人类的偏好。

具体分三步：

ChatGPT 能用，核心就是这个流程。它让 AI 不只是「会说」，而是「说得让人觉得好」。

RLHF 解决了语言模型的核心问题：预训练优化的是下一 token 的预测概率，但这不等于「好的回答」。

用少量高质量的 prompt-response 对微调基础模型。让模型从「随机生成器」变成「能听从指令的助手」。

让标注员对同一 prompt 的多个回答进行排序，收集偏好数据 (x, y_win, y_lose)。用 Bradley-Terry 模型建模：

P(y_w > y_l | x) = exp(r(x,y_w)) / (exp(r(x,y_w)) + exp(r(x,y_l)))

关键设计选择：

用 PPO 优化策略模型，同时用 KL 惩罚约束模型不要偏离太远（具体公式见完整版教程）。

为什么需要 KL 惩罚？ 没有 KL 约束的话，模型会 reward hacking——找到 RM 的漏洞来骗取高分。

RLHF 可形式化为带 KL 约束的优化问题：最大化期望 reward，同时约束策略偏离参考模型的程度不超过阈值 ε。

DPO (Direct Preference Optimization)：跳过 RM 训练，直接用偏好数据优化策略，无需 RL 训练循环
GRPO (Group Relative Policy Optimization)：DeepSeek 提出，去掉 value model，用 group statistics 作为 baseline
RLAIF (RL from AI Feedback)：用更强模型替代人类标注，但引入模型偏见循环风险
Self-Rewarding Language Models：模型自己生成 reward signal，但仍面临 reward drift

金豆的思考： RLHF 是当前 LLM 对齐的基石，但它的本质是把人类偏好压缩成一个标量函数——而「好」本身可能是多维度、上下文相关的。这个根本矛盾决定了 RLHF 只是一个过渡方案。真正的人类对齐，可能需要完全不同的范式。 🐱