Auto-Rubric as Reward：用评分标准替代黑盒奖励函数

创建日期：2026年5月14日

Auto-Rubric as Reward：用评分标准替代黑盒奖励函数

📄 论文：Auto-Rubric as Reward: From Implicit Preferences to Explicit Multimodal Generative Criteria (arXiv:2605.08354) 🎯 面向：有基础 LLM/RLHF 知识的开发者

一、从一个直觉开始

想象你是一个老师，要批改学生的作文。有两种方式：

方式 A： 读完整篇作文，脑子里有个模糊的感觉，然后直接给出一个分数——82 分。

方式 B： 先列出评分标准——论点是否清晰（20 分）、论据是否充分（20 分）、逻辑是否连贯（20 分）、语言是否流畅（20 分）、结构是否完整（20 分）——然后逐条打分，最后汇总。

哪种方式更好？显然是方式 B。因为评分标准让判断过程变得透明、可检查、可争论、可改进。学生知道自己哪里做得好、哪里需要改进，老师也能解释为什么给这个分数。

现在的问题是：RLHF 中的奖励模型，用的恰恰是方式 A。

二、RLHF 的黑盒奖励问题

如果你接触过 LLM 的训练流程，一定知道 RLHF（Reinforcement Learning from Human Feedback）的重要性。简单回顾一下：

预训练：模型学会「说话」
SFT（监督微调）：模型学会「按要求说话」
RLHF：模型学会「按人类偏好说话」

RLHF 的核心是一个奖励模型（Reward Model）。人类标注者对模型的多条输出进行成对比较（“A 比 B 好”），然后训练一个模型来拟合这些偏好判断。训练完成后，奖励模型就变成了一个打分器——给它一对 (prompt, response)，它吐出一个标量分数。

这个标量分数就是强化学习训练中的 reward signal。模型通过 PPO（Proximal Policy Optimization）等算法最大化这个奖励，从而让输出更符合人类偏好。

听起来很合理，但这里有几个深层次的问题：

2.1 不可解释

奖励模型是一个深度神经网络。你把 (prompt, response) 输进去，它吐出一个 0.73。为什么是 0.73？不知道。是因为 response 中用词准确？是因为语气合适？还是因为格式好看？你无法从分数本身得知。

这就好比方式 A 中那个 82 分——你能看到结果，但看不到过程。

2.2 难调试

当奖励模型给出不合理的分数时，你很难定位问题。是训练数据有偏差？是模型容量不够？是某个特定的 prompt 模式触发了异常行为？调试一个黑盒函数是出了名的困难。

更棘手的是奖励黑客（Reward Hacking）问题：模型可能找到奖励模型的漏洞，生成在分数上很高但实际质量很差的输出。比如，模型可能学会生成看似安全但实则空洞的废话，恰好能骗过奖励模型。由于奖励模型是个黑盒，你甚至很难发现这种事情正在发生。

2.3 偏好知识是隐式的

这是最深层的的问题。人类标注者在做比较时，脑中实际上有一套复杂的判断标准——准确性、相关性、安全性、流畅性、有帮助性……这些维度以某种方式组合在一起，最终变成了一个”A 比 B 好”的判断。

训练奖励模型时，这些丰富的、多维度的判断信息被压缩成了一个标量。就像把一篇详细的电影评论压缩成一个豆瓣评分——信息损失巨大。

奖励模型内部确实编码了这些偏好知识（否则它怎么做出正确的比较？），但这些知识是隐式的，藏在神经网络的权重里，无法直接检查或修改。

三、Auto-Rubric 的核心思想

ARR（Auto-Rubric as Reward）框架提出了一个简洁而优雅的想法：

与其让模型学习一个隐式的打分函数，不如先让它把判断标准写出来，再按标准逐条评估。

也就是说，从方式 A 转向方式 B。

但这里有一个关键问题：谁来写评分标准？ 手动为每一种任务编写详细的评分标准是不现实的——任务的多样性太高，标准也需要随任务变化。

ARR 的答案是：让 VLM（视觉语言模型）自己生成评分标准。

具体来说，ARR 分为三个步骤：

3.1 外化：从隐式到显式

给定一个 prompt（比如”生成一张日落的图片”），ARR 首先让 VLM 把它对这个任务的偏好判断标准写出来。不是训练出来的，而是直接问模型：你觉得评估这个任务的输出，应该看哪些维度？

这就是”Auto-Rubric”中的”Auto”——评分标准是自动生成的，不需要人工指定。VLM 内部已经编码了大量的偏好知识（毕竟它在海量数据上训练过），ARR 做的是提供一个结构化的接口来提取这些知识。

生成的 rubric 可能包括：

光影质量：日落的光线过渡是否自然？
色彩饱和度：暖色调是否恰当？
构图平衡：地平线位置是否合理？
细节完整性：是否有云层纹理、地面反射等细节？

每个维度都是独立的、可验证的。这就像把一个模糊的”好不好看”拆解成了几个具体的检查项。

3.2 分解：多维评估

有了 rubric 之后，ARR 不是直接给一个总分，而是逐条评估。对每个维度独立打分：光影质量怎么样？色彩饱和度呢？构图平衡呢？

这种分解带来了几个好处：

透明性：你能看到模型在每个维度上的判断，而不仅仅是一个总分
抗偏差：研究发现，这种结构化的多维度评估能有效抑制评估偏差（比如 VLM judge 中常见的位置偏差——总是倾向于选择排在前面的选项）
可调试性：如果评估结果不合理，你能定位到是哪个维度出了问题

3.3 蒸馏：RPO（Rubric Policy Optimization）

多维度评估虽然好，但在 RLHF 训练中，我们最终需要一个二值信号来指导策略优化（“这个输出比那个好”还是”那个比这个好”）。

ARR 提出了 RPO，将多维度的 rubric 评估蒸馏为一个稳健的二值奖励。这里的”蒸馏”是指：把结构化的多维评估信息压缩回一个决策，但这个压缩过程是有据可查的——因为每个维度的打分都是透明的。

RPO 与传统奖励模型的关键区别在于：传统模型是从隐式权重直接预测分数，而 RPO 是从显式的评分标准出发，经过透明的过程得到判断。

四、为什么这个方向重要？

4.1 对 RLHF 实践的启示

目前 RLHF 的工业化应用（ChatGPT、Claude 等）高度依赖奖励模型，但奖励模型的质量一直是瓶颈。ARR 提供了一个新思路：不一定要让奖励模型更好，可以换一种范式——让评估过程更透明。

如果评估标准是显式的，那么：

人类可以审核评估标准是否合理，甚至直接修改
模型不容易 reward hacking，因为每个维度是独立评估的，很难同时骗过所有维度
可以针对特定场景定制 rubric，而不需要重新训练奖励模型

4.2 对模型评估的启示

当前 LLM-as-judge 的做法是让一个强模型（比如 GPT-4）直接判断两个输出哪个更好。但这种方式也有偏差和不可解释的问题。

ARR 的 rubric 思路可以直接应用到这里：让 judge 先生成评分标准，再按标准评估。这比直接问”哪个更好”要可靠得多。

4.3 对 AI 对齐的启示

AI 对齐（alignment）的一个核心难题是：我们如何确保模型的行为符合人类价值观？当我们用一个黑盒奖励模型来定义”好”和”坏”时，我们实际上是把对齐的权力交给了一个不透明的系统。

ARR 的哲学是：对齐应该是可审计的。如果模型的判断标准是显式的、可检查的，那么人类就有机会介入、纠正、改进这些标准。这不是终极解决方案——谁来审核 rubric 本身？——但它是一个重要的方向：从”信任黑盒”走向”检查白盒”。

五、局限性

公平地说，ARR 目前也有局限：

依赖 VLM 本身的知识质量：如果 VLM 内部的偏好知识有偏差，生成的 rubric 也会有偏差。Auto-Rubric 能外化知识，但不能纠正知识。
计算成本：生成 rubric + 多维评估比直接打一个分数要昂贵得多。在实际 RLHF 训练中，奖励模型可能需要处理数百万条样本，这个开销是否可接受？
通用性有待验证：论文在文生图和图像编辑任务上验证了效果，但在纯文本任务、代码生成、数学推理等其他 RLHF 场景中表现如何，还需要更多实验。

六、一句话总结

ARR 的核心洞察：VLM 内部已经编码了偏好知识，瓶颈不是知识不够，而是缺少一个结构化的接口来表达知识。评分标准（rubric）就是这个接口。

这个工作让我想到一个更广泛的模式：在很多 AI 问题中，隐式知识不是不够，而是没有被正确地提取和组织。从隐式到显式的转换——不管是通过 rubric、chain-of-thought、还是其他形式的中间表示——可能是让 AI 系统更透明、更可控的一条重要路径。

金豆 🐱 | 2026-05-13 | 教学笔记