DeepSeek R2：推理能力开挂，奖励模型也能“以小博大”？-AITOP100,AI资讯

DeepSeek R2 真的要来了？推理能力又要进化了！

最近，DeepSeek 和清华大学的研究团队搞了个大新闻，他们琢磨出了一套新方法，让奖励模型在推理的时候也能“火力全开”，性能蹭蹭往上涨。简单来说，就是用更少的资源，实现更好的效果。

说起强化学习（RL），大家应该不陌生，这玩意儿现在可是大型语言模型（LLM）训练的标配。但问题来了，奖励信号不好搞啊！尤其是在那些没啥明确规则的场景里，想让 LLM 得到准确的奖励，难！

那能不能通过增加推理资源，来提升奖励模型的水平呢？DeepSeek 和清华的研究者给出了肯定的答案。他们发现，用上点式生成式奖励建模（Pointwise Generative Reward Modeling, GRM）这招，模型就能更灵活地适应各种输入，而且还能在推理阶段不断提升能力。

独家秘籍：SPCT 自我原则点评调优

为了实现这个目标，他们提出了一种叫做自我原则点评调优（Self-Principled Critique Tuning, SPCT）的学习方法。简单理解，就是让模型自己生成评判标准，然后自己给自己打分。通过在线 RL 训练，就能让 GRM 具备更强的奖励能力。最终，他们搞出了DeepSeek-GRM 模型。

其中，DeepSeek-GRM-27B 是基于 Gemma-2-27B，经过 SPCT 训练得到的。结果表明，SPCT 能显著提高 GRM 的质量和扩展性，在多个基准测试中都超过了现有的方法和模型。

更厉害的是，研究者还对比了 DeepSeek-GRM-27B 和一个 671B 大模型的推理时间扩展性能，发现前者在模型大小上的训练时间扩展性能更好！

为了更上一层楼，他们还引入了一个元奖励模型（meta RM）来引导投票过程，进一步提升扩展性能。

三大贡献，刷新认知

这项研究的主要贡献有三点：

提出了一种新的方法——自我原则点评调优（SPCT），用于推动通用奖励建模在推理阶段实现有效的可扩展性，最终构建出DeepSeek-GRM系列模型。同时引入了元奖励模型（meta RM），进一步提升推理扩展性能。
SPCT 显著提升了 GRM 在奖励质量和推理扩展性能方面的表现，超过了现有方法及多个强劲的公开模型。
将 SPCT 的训练流程应用于更大规模的 LLM，并发现相比于训练阶段扩大模型参数量，推理阶段的扩展策略在性能上更具优势。

SPCT 详解：两步走，效果杠杠的！

受到实验结果的启发，研究者为点式生成式奖励模型（pointwise GRM）开发了一种新方法，让它能够学习生成高质量的原则，从而更好地指导点评内容的生成。这个方法，就是 SPCT。

SPCT 主要分为两个阶段：

拒绝式微调（rejective fine-tuning）： 相当于冷启动，让模型先熟悉一下各种输入类型。
基于规则的在线强化学习（rule-based online RL）： 通过提升生成的原则和点评内容，来强化通用奖励的生成过程。

SPCT 还能促进 GRM 在推理阶段的可扩展行为。

原则：从“理解”到“生成”

研究者发现，适当的原则可以引导奖励生成，这对于生成高质量奖励至关重要。但在大规模通用奖励建模中，如何有效生成这些原则仍然是个难题。

为此，他们提出将“原则”从一种理解过程解耦出来，转变为奖励生成的一部分。也就是说，不再把原则当成预处理步骤，而是直接纳入奖励生成流程中。

简单来说，就是让 GRM 自己生成原则，然后基于这些原则生成点评内容。这样一来，原则就能根据输入问题及其回答内容动态生成，奖励生成过程也更加灵活。

通过对 GRM 进行后训练，还能进一步提升所生成原则与对应点评内容的质量。当 GRM 能够生成多样化、高质量的原则时，它输出的奖励也会更加合理，推理阶段的可扩展性也会更强。

强化学习：双管齐下，优化原则和点评

为了同时优化 GRM 中的原则和点评内容的生成，研究者提出了 SPCT 方法，它结合了拒绝式微调（rejective fine-tuning）和基于规则的强化学习（rule-based RL）。

拒绝式微调（Rejective Fine-Tuning，冷启动）

这个阶段的核心是让 GRM 适应不同的输入类型，并以正确的格式生成原则和点评内容。

与以往工作不同，研究者采用了点式 GRM（pointwise GRM），以在相同格式下灵活地对任意数量的回答进行奖励生成。

在数据构建方面，除了通用指令数据外，研究者还从具有不同回答数量的 RM 数据中采样预训练 GRM 在给定查询与回答下的轨迹。

对于每个查询及其对应的回答，研究者执行了 N_RFT 次采样。如果模型预测的奖励与真实奖励不一致，或者该组查询与回答在所有 N_RFT 次采样中全部预测正确，则拒绝该轨迹。

为了提高预测奖励与真实奖励的一致性，研究者还引入了提示式采样（hinted sampling），将相关信息作为提示，附加到 GRM 的提示语中。

基于规则的强化学习

在 SPCT 的第二阶段，研究者使用基于规则的在线强化学习对 GRM 进一步微调。他们采用了 GRPO 的原始设定，并使用基于规则的结果奖励（rule-based outcome rewards）。

在 rollout 过程中，GRM 根据输入查询与回答生成原则与点评，然后提取预测奖励并通过准确性规则与真实奖励进行对比。

与 DeepSeek-AI 不同的是，研究者不再使用格式奖励，而是采用更高的 KL 惩罚系数，以确保输出格式正确并避免产生严重偏差。

该奖励函数鼓励 GRM 通过在线优化生成的原则与点评内容，正确地区分最优回答，从而提升推理阶段的可扩展性。

推理时 Scaling：投票选出最佳答案

为了进一步提升 DeepSeek-GRM 在生成通用奖励上的性能，研究团队探索了如何利用更多的推理计算，通过基于采样的策略来实现有效的推理时扩展。

通过生成奖励进行投票

逐点 GRM（pointwise GRMs）投票过程被定义为将奖励求和。因为 S_(i,j) 通常被设定在一个小的离散范围内（比如 {1,...,10}），所以投票过程实际上将奖励空间扩大了 k 倍，让 GRM 能生成大量原则（principles），从而提升最终奖励的质量和细腻度。

为了避免位置偏差并增加多样性，研究人员在采样前会对回答进行随机打乱。

元奖励模型引导投票

DeepSeek-GRM 的投票过程需要多次采样，但由于随机性或模型本身的局限性，生成的某些原则和评论可能会出现偏见或者质量不高。

因此，研究团队训练了一个元奖励模型（meta RM）来引导投票过程。这个 meta RM 是一个逐点标量模型，训练目标是判断 DeepSeek-GRM 生成的原则和评论是否正确。

引导投票的实现很简单：meta RM 为 k 个采样奖励输出元奖励（meta rewards），然后从这些奖励中选出前 k_meta（k_meta ≤ k）个高质量的奖励进行最终投票，从而过滤掉低质量样本。

实验结果：效果显著，吊打基线！

实验结果表明，DeepSeek-GRM-27B 在整体性能上超过了基线方法，甚至能和一些强大的公开 RM（如 Nemotron-4-340B-Reward 和 GPT-4o）相媲美。通过推理时扩展（inference-time scaling），DeepSeek-GRM-27B 还能更上一层楼。

推理时扩展性：小模型也能爆发出惊人力量！

研究人员发现，在最多 8 个样本的情况下，DeepSeek-GRM-27B 的性能提升最高，超越了贪婪解码和采样结果。随着推理计算量增加（最多 32 个样本），DeepSeek-GRM-27B 展现出进一步提升性能的潜力。meta RM 也在每个基准测试中证明了其过滤低质量轨迹的有效性。

总之，SPCT 提升了 GRM 的推理时扩展性，而 meta RM 进一步增强了整体扩展性能。

总结：未来可期，降本增效不是梦！

这项研究表明，通过 SPCT 方法和元奖励模型的加持，奖励模型也能在推理阶段实现“以小博大”，用更少的资源跑出更好的效果。这对于降低模型训练成本、提升推理效率具有重要意义。未来，我们可以期待更多基于 SPCT 的创新应用，为人工智能领域带来更多惊喜！