DeepSeek R2要来了？清华联手DeepSeek搞了个大新闻！奖励模型也能“开挂”式升级！-AITOP100,AI资讯

大模型训练的福音？DeepSeek联手清华，奖励模型迎来“开挂”时刻！

最近，DeepSeek 和清华大学的研究者们搞了个大新闻！他们发表了一篇论文，专门研究奖励模型在推理时如何“开挂”式 Scaling，这让咱们期待已久的 DeepSeek R2 似乎更近了一步。大家都知道，现在训练大语言模型，强化学习是必不可少的，但是获取准确的奖励信号一直是个老大难问题啊！

DEEPSEEK

研究人员发现，用一种叫做“点式生成式奖励建模（GRM）”的方法，能大大提升模型的适应能力，而且在推理阶段还能轻松扩展。为了实现这个目标，他们搞出了一个“自我原则点评调优(SPCT)”学习方法。经过 SPCT 训练，就得到了 DeepSeek - GRM 模型，比如基于 Gemma -2-27B 训练的 DeepSeek - GRM -27B。实验结果让人眼前一亮！SPCT 显著提高了 GRM 的质量和可扩展性，在各种测试中都比现在流行的其他方法和模型更胜一筹。更厉害的是，他们还引入了一个“元奖励模型(meta RM)”来引导投票过程，进一步提升了扩展性能。

DEEPSEEK R2

SPCT方法：两步走，让GRM“脱胎换骨”！

SPCT 方法其实分两个阶段：第一步是“拒绝式微调”，相当于给 GRM 做个冷启动，让它能适应各种不同的输入类型，并且能用正确的格式生成原则和点评内容。研究人员采用了点式 GRM，还用上了提示式采样，来提高预测奖励和真实奖励的一致性。第二步是“基于规则的在线强化学习”，这一步会根据规则给 GRM 的输出结果奖励，鼓励它生成更好的原则和点评，最终提升推理阶段的可扩展性。

性能提升秘籍：推理时扩展策略！

为了让 DeepSeek - GRM 的性能更上一层楼，研究团队探索了推理时扩展策略。简单来说，就是通过生成奖励进行投票，扩大奖励的空间，提升最终奖励的质量。同时，他们还训练了一个元奖励模型来引导投票，把那些质量不高的样本过滤掉。实验结果证明，DeepSeek - GRM -27B 整体表现非常出色，而且通过推理时扩展，性能还能更上一层楼！消融研究显示，在线训练对于 GRM 非常重要，原则的生成也对模型性能至关重要。此外，研究还证明了 DeepSeek - GRM -27B 在推理时扩展方面的有效性，效果比单纯扩大模型规模要好得多。

划重点：

💡DeepSeek 和清华研究者提出 SPCT 方法，还引入元奖励模型，提升奖励模型推理时可扩展性，构建出 DeepSeek - GRM 系列模型。
🧪SPCT 分拒绝式微调与基于规则的在线强化学习两阶段，提高了 GRM 质量和扩展性，使 DeepSeek - GRM -27B 在基准测试中表现优异。
📈研究团队探索推理时扩展策略，通过生成奖励投票和元奖励模型引导投票提升性能，证明 DeepSeek - GRM -27B 推理时扩展有效性优于扩大模型规模。

更多AI行业最新资讯新闻信息（ai界最新新闻）请关注AI 人工智能网站--AITOP100平台--AI资讯