大模型训练的福音?DeepSeek联手清华,奖励模型迎来“开挂”时刻!
最近,DeepSeek 和清华大学的研究者们搞了个大新闻!他们发表了一篇论文,专门研究奖励模型在推理时如何“开挂”式 Scaling,这让咱们期待已久的 DeepSeek R2 似乎更近了一步。大家都知道,现在训练大语言模型,强化学习是必不可少的,但是获取准确的奖励信号一直是个老大难问题啊!
研究人员发现,用一种叫做“点式生成式奖励建模(GRM)”的方法,能大大提升模型的适应能力,而且在推理阶段还能轻松扩展。为了实现这个目标,他们搞出了一个“自我原则点评调优(SPCT)”学习方法。经过 SPCT 训练,就得到了 DeepSeek - GRM 模型,比如基于 Gemma -2-27B 训练的 DeepSeek - GRM -27B。实验结果让人眼前一亮!SPCT 显著提高了 GRM 的质量和可扩展性,在各种测试中都比现在流行的其他方法和模型更胜一筹。更厉害的是,他们还引入了一个“元奖励模型(meta RM)”来引导投票过程,进一步提升了扩展性能。
SPCT方法:两步走,让GRM“脱胎换骨”!
SPCT 方法其实分两个阶段:第一步是“拒绝式微调”,相当于给 GRM 做个冷启动,让它能适应各种不同的输入类型,并且能用正确的格式生成原则和点评内容。研究人员采用了点式 GRM,还用上了提示式采样,来提高预测奖励和真实奖励的一致性。第二步是“基于规则的在线强化学习”, 这一步会根据规则给 GRM 的输出结果奖励,鼓励它生成更好的原则和点评,最终提升推理阶段的可扩展性。
性能提升秘籍:推理时扩展策略!
为了让 DeepSeek - GRM 的性能更上一层楼,研究团队探索了推理时扩展策略。简单来说,就是通过生成奖励进行投票,扩大奖励的空间,提升最终奖励的质量。同时,他们还训练了一个元奖励模型来引导投票,把那些质量不高的样本过滤掉。实验结果证明,DeepSeek - GRM -27B 整体表现非常出色,而且通过推理时扩展,性能还能更上一层楼!消融研究显示,在线训练对于 GRM 非常重要,原则的生成也对模型性能至关重要。此外,研究还证明了 DeepSeek - GRM -27B 在推理时扩展方面的有效性,效果比单纯扩大模型规模要好得多。
划重点:
- 💡DeepSeek 和清华研究者提出 SPCT 方法,还引入元奖励模型,提升奖励模型推理时可扩展性,构建出 DeepSeek - GRM 系列模型。
- 🧪SPCT 分拒绝式微调与基于规则的在线强化学习两阶段,提高了 GRM 质量和扩展性,使 DeepSeek - GRM -27B 在基准测试中表现优异。
- 📈研究团队探索推理时扩展策略,通过生成奖励投票和元奖励模型引导投票提升性能,证明 DeepSeek - GRM -27B 推理时扩展有效性优于扩大模型规模。