• 首页
  • AI工具集
  • AI资讯
  • AI活动
  • AI社区
  • AI短剧
  • AI创作大赛
  • AI小说
  • AI绘画
    AI视频
    AI对口型
    视频转动漫风格
    AI创意二维码
    AI艺术字
    AI智能抠图
  • AI短视频创作热门-AI社区
AI 对话

DeepSeek R2:推理能力开挂,奖励模型也能“以小博大”?

DeepSeek R2:推理能力开挂,奖励模型也能“以小博大”?
AI TOP100
2025-04-04 19:53:58

DeepSeek R2 真的要来了?推理能力又要进化了!

最近,DeepSeek 和清华大学的研究团队搞了个大新闻,他们琢磨出了一套新方法,让奖励模型在推理的时候也能“火力全开”,性能蹭蹭往上涨。简单来说,就是用更少的资源,实现更好的效果。

说起强化学习(RL),大家应该不陌生,这玩意儿现在可是大型语言模型(LLM)训练的标配。但问题来了,奖励信号不好搞啊!尤其是在那些没啥明确规则的场景里,想让 LLM 得到准确的奖励,难!

那能不能通过增加推理资源,来提升奖励模型的水平呢?DeepSeek 和清华的研究者给出了肯定的答案。他们发现,用上点式生成式奖励建模(Pointwise Generative Reward Modeling, GRM)这招,模型就能更灵活地适应各种输入,而且还能在推理阶段不断提升能力。


独家秘籍:SPCT 自我原则点评调优

为了实现这个目标,他们提出了一种叫做自我原则点评调优(Self-Principled Critique Tuning, SPCT)的学习方法。简单理解,就是让模型自己生成评判标准,然后自己给自己打分。通过在线 RL 训练,就能让 GRM 具备更强的奖励能力。最终,他们搞出了DeepSeek-GRM 模型。

其中,DeepSeek-GRM-27B 是基于 Gemma-2-27B,经过 SPCT 训练得到的。结果表明,SPCT 能显著提高 GRM 的质量和扩展性,在多个基准测试中都超过了现有的方法和模型。

更厉害的是,研究者还对比了 DeepSeek-GRM-27B 和一个 671B 大模型的推理时间扩展性能,发现前者在模型大小上的训练时间扩展性能更好!

为了更上一层楼,他们还引入了一个元奖励模型(meta RM)来引导投票过程,进一步提升扩展性能。


三大贡献,刷新认知

这项研究的主要贡献有三点:

  1. 提出了一种新的方法——自我原则点评调优(SPCT),用于推动通用奖励建模在推理阶段实现有效的可扩展性,最终构建出DeepSeek-GRM系列模型。同时引入了元奖励模型(meta RM),进一步提升推理扩展性能。
  2. SPCT 显著提升了 GRM 在奖励质量和推理扩展性能方面的表现,超过了现有方法及多个强劲的公开模型。
  3. 将 SPCT 的训练流程应用于更大规模的 LLM,并发现相比于训练阶段扩大模型参数量,推理阶段的扩展策略在性能上更具优势。


SPCT 详解:两步走,效果杠杠的!

受到实验结果的启发,研究者为点式生成式奖励模型(pointwise GRM)开发了一种新方法,让它能够学习生成高质量的原则,从而更好地指导点评内容的生成。这个方法,就是 SPCT。

SPCT 主要分为两个阶段:

  1. 拒绝式微调(rejective fine-tuning): 相当于冷启动,让模型先熟悉一下各种输入类型。
  2. 基于规则的在线强化学习(rule-based online RL): 通过提升生成的原则和点评内容,来强化通用奖励的生成过程。

SPCT 还能促进 GRM 在推理阶段的可扩展行为。

原则:从“理解”到“生成”

研究者发现,适当的原则可以引导奖励生成,这对于生成高质量奖励至关重要。但在大规模通用奖励建模中,如何有效生成这些原则仍然是个难题。

为此,他们提出将“原则”从一种理解过程解耦出来,转变为奖励生成的一部分。也就是说,不再把原则当成预处理步骤,而是直接纳入奖励生成流程中。

简单来说,就是让 GRM 自己生成原则,然后基于这些原则生成点评内容。这样一来,原则就能根据输入问题及其回答内容动态生成,奖励生成过程也更加灵活。

通过对 GRM 进行后训练,还能进一步提升所生成原则与对应点评内容的质量。当 GRM 能够生成多样化、高质量的原则时,它输出的奖励也会更加合理,推理阶段的可扩展性也会更强。


强化学习:双管齐下,优化原则和点评

为了同时优化 GRM 中的原则和点评内容的生成,研究者提出了 SPCT 方法,它结合了拒绝式微调(rejective fine-tuning)和基于规则的强化学习(rule-based RL)。


拒绝式微调(Rejective Fine-Tuning,冷启动)

这个阶段的核心是让 GRM 适应不同的输入类型,并以正确的格式生成原则和点评内容。

与以往工作不同,研究者采用了点式 GRM(pointwise GRM),以在相同格式下灵活地对任意数量的回答进行奖励生成。

在数据构建方面,除了通用指令数据外,研究者还从具有不同回答数量的 RM 数据中采样预训练 GRM 在给定查询与回答下的轨迹。

对于每个查询及其对应的回答,研究者执行了 N_RFT 次采样。如果模型预测的奖励与真实奖励不一致,或者该组查询与回答在所有 N_RFT 次采样中全部预测正确,则拒绝该轨迹。

为了提高预测奖励与真实奖励的一致性,研究者还引入了提示式采样(hinted sampling),将相关信息作为提示,附加到 GRM 的提示语中。


基于规则的强化学习

在 SPCT 的第二阶段,研究者使用基于规则的在线强化学习对 GRM 进一步微调。他们采用了 GRPO 的原始设定,并使用基于规则的结果奖励(rule-based outcome rewards)。

在 rollout 过程中,GRM 根据输入查询与回答生成原则与点评,然后提取预测奖励并通过准确性规则与真实奖励进行对比。

与 DeepSeek-AI 不同的是,研究者不再使用格式奖励,而是采用更高的 KL 惩罚系数,以确保输出格式正确并避免产生严重偏差。

该奖励函数鼓励 GRM 通过在线优化生成的原则与点评内容,正确地区分最优回答,从而提升推理阶段的可扩展性。

推理时 Scaling:投票选出最佳答案

为了进一步提升 DeepSeek-GRM 在生成通用奖励上的性能,研究团队探索了如何利用更多的推理计算,通过基于采样的策略来实现有效的推理时扩展。

通过生成奖励进行投票

逐点 GRM(pointwise GRMs)投票过程被定义为将奖励求和。因为 S_(i,j) 通常被设定在一个小的离散范围内(比如 {1,...,10}),所以投票过程实际上将奖励空间扩大了 k 倍,让 GRM 能生成大量原则(principles),从而提升最终奖励的质量和细腻度。

为了避免位置偏差并增加多样性,研究人员在采样前会对回答进行随机打乱。

元奖励模型引导投票

DeepSeek-GRM 的投票过程需要多次采样,但由于随机性或模型本身的局限性,生成的某些原则和评论可能会出现偏见或者质量不高。

因此,研究团队训练了一个元奖励模型(meta RM)来引导投票过程。这个 meta RM 是一个逐点标量模型,训练目标是判断 DeepSeek-GRM 生成的原则和评论是否正确。

引导投票的实现很简单:meta RM 为 k 个采样奖励输出元奖励(meta rewards),然后从这些奖励中选出前 k_meta(k_meta ≤ k)个高质量的奖励进行最终投票,从而过滤掉低质量样本。


实验结果:效果显著,吊打基线!

实验结果表明,DeepSeek-GRM-27B 在整体性能上超过了基线方法,甚至能和一些强大的公开 RM(如 Nemotron-4-340B-Reward 和 GPT-4o)相媲美。通过推理时扩展(inference-time scaling),DeepSeek-GRM-27B 还能更上一层楼。


推理时扩展性:小模型也能爆发出惊人力量!

研究人员发现,在最多 8 个样本的情况下,DeepSeek-GRM-27B 的性能提升最高,超越了贪婪解码和采样结果。随着推理计算量增加(最多 32 个样本),DeepSeek-GRM-27B 展现出进一步提升性能的潜力。meta RM 也在每个基准测试中证明了其过滤低质量轨迹的有效性。

总之,SPCT 提升了 GRM 的推理时扩展性,而 meta RM 进一步增强了整体扩展性能。


总结:未来可期,降本增效不是梦!

这项研究表明,通过 SPCT 方法和元奖励模型的加持,奖励模型也能在推理阶段实现“以小博大”,用更少的资源跑出更好的效果。这对于降低模型训练成本、提升推理效率具有重要意义。未来,我们可以期待更多基于 SPCT 的创新应用,为人工智能领域带来更多惊喜!

0
0
文章来源:AI TOP100
原文链接:https://36kr.com/p/3235677673865217
免责声明:本文不代表本平台立场,且不构成投资建议,请谨慎对待。
全部评论
暂无评论
相关AI工具
  • DeepSeek-V3-0324:DeepSeek先进文本生成模型
相关资讯
  • QQ音乐牵手腾讯元宝:模糊搜歌、场景配乐、划线即播玩出新花样

  • 首个支持物理交互的MCP Server,百度小度正式上线

  • Kimi Playground震撼上线:开启AI工具调用新时代,开发者福音来了!

  • 百度推出Tizzy.ai:无广告智能搜索,影视资源与便捷服务一键畅享

  • 智谱清影生视频重磅更新:视频创作迎来“超进化”

热点资讯

马斯克放大招!Grok AI上线动漫AI伴侣,每月30美元能聊“二次元”

5天前
马斯克放大招!Grok AI上线动漫AI伴侣,每月30美元能聊“二次元”

中央美院首届AIGC艺术展来了!7月解锁「数艺拂晓」新体验

3天前
中央美院首届AIGC艺术展来了!7月解锁「数艺拂晓」新体验

会说话的AI编程工具?字节跳动TRAE2.0将加入语音交互

3天前
会说话的AI编程工具?字节跳动TRAE2.0将加入语音交互

每日AI资讯-2025年07月17日

2天前
每日AI资讯-2025年07月17日

美图AI Agent-RoboNeo重磅登场!“一句话”解锁影像与设计新生产力

6天前
美图AI Agent-RoboNeo重磅登场!“一句话”解锁影像与设计新生产力
分享
0
0

欢迎来到AI Top100!我们聚合全球500+款AI智能软件,提供最新资讯、热门课程和活动。我们致力于打造最专业的信息平台,让您轻松了解全球AI领域动态,并为您提供优质服务。

合作伙伴
联系我们
加入AITOP100社群
加入社群
AITOP100商务微信
商务微信
相关链接
服务及隐私政策
网站地图
关于我们
粤ICP备2022124843号-2粤公网安备44030002004505广播电视节目制作经营许可证:(粤)字第00712号Copyright © 华强方特(深圳)动漫有限公司 版权所有