• 首页
  • AI工具集
  • AI资讯
  • AI活动
  • AI社区
  • AI短剧
  • AI创作大赛
  • AI小说
  • AI绘画
    AI视频
    AI对口型
    视频转动漫风格
    AI创意二维码
    AI艺术字
    AI智能抠图
  • AI短视频创作热门-AI社区
AI 对话

DeepSeek R2要来了?清华联手DeepSeek搞了个大新闻!奖励模型也能“开挂”式升级!

DeepSeek R2要来了?清华联手DeepSeek搞了个大新闻!奖励模型也能“开挂”式升级!
AI TOP100
2025-04-06 16:00:48

大模型训练的福音?DeepSeek联手清华,奖励模型迎来“开挂”时刻!

最近,DeepSeek 和清华大学的研究者们搞了个大新闻!他们发表了一篇论文,专门研究奖励模型在推理时如何“开挂”式 Scaling,这让咱们期待已久的 DeepSeek R2 似乎更近了一步。大家都知道,现在训练大语言模型,强化学习是必不可少的,但是获取准确的奖励信号一直是个老大难问题啊!

DEEPSEEK

研究人员发现,用一种叫做“点式生成式奖励建模(GRM)”的方法,能大大提升模型的适应能力,而且在推理阶段还能轻松扩展。为了实现这个目标,他们搞出了一个“自我原则点评调优(SPCT)”学习方法。经过 SPCT 训练,就得到了 DeepSeek - GRM 模型,比如基于 Gemma -2-27B 训练的 DeepSeek - GRM -27B。实验结果让人眼前一亮!SPCT 显著提高了 GRM 的质量和可扩展性,在各种测试中都比现在流行的其他方法和模型更胜一筹。更厉害的是,他们还引入了一个“元奖励模型(meta RM)”来引导投票过程,进一步提升了扩展性能。

DEEPSEEK R2

SPCT方法:两步走,让GRM“脱胎换骨”!

SPCT 方法其实分两个阶段:第一步是“拒绝式微调”,相当于给 GRM 做个冷启动,让它能适应各种不同的输入类型,并且能用正确的格式生成原则和点评内容。研究人员采用了点式 GRM,还用上了提示式采样,来提高预测奖励和真实奖励的一致性。第二步是“基于规则的在线强化学习”, 这一步会根据规则给 GRM 的输出结果奖励,鼓励它生成更好的原则和点评,最终提升推理阶段的可扩展性。

性能提升秘籍:推理时扩展策略!

为了让 DeepSeek - GRM 的性能更上一层楼,研究团队探索了推理时扩展策略。简单来说,就是通过生成奖励进行投票,扩大奖励的空间,提升最终奖励的质量。同时,他们还训练了一个元奖励模型来引导投票,把那些质量不高的样本过滤掉。实验结果证明,DeepSeek - GRM -27B 整体表现非常出色,而且通过推理时扩展,性能还能更上一层楼!消融研究显示,在线训练对于 GRM 非常重要,原则的生成也对模型性能至关重要。此外,研究还证明了 DeepSeek - GRM -27B 在推理时扩展方面的有效性,效果比单纯扩大模型规模要好得多。

划重点:

  • 💡DeepSeek 和清华研究者提出 SPCT 方法,还引入元奖励模型,提升奖励模型推理时可扩展性,构建出 DeepSeek - GRM 系列模型。
  • 🧪SPCT 分拒绝式微调与基于规则的在线强化学习两阶段,提高了 GRM 质量和扩展性,使 DeepSeek - GRM -27B 在基准测试中表现优异。
  • 📈研究团队探索推理时扩展策略,通过生成奖励投票和元奖励模型引导投票提升性能,证明 DeepSeek - GRM -27B 推理时扩展有效性优于扩大模型规模。

更多AI行业最新资讯新闻信息(ai界最新新闻)请关注AI人工智能网站--AITOP100平台--AI资讯

0
0
文章来源:AI TOP100
免责声明:本文不代表本平台立场,且不构成投资建议,请谨慎对待。
相关AI工具
  • DeepSeek‌:深度求索AI大模型
相关资讯
  • 夸克AI助力高考志愿填报,4000万考生家长的靠谱之选

  • 阿里巴巴发布HumanOmniV2:多模态AI性能再攀高峰,准确率冲破69%大关!

  • 2025深圳AI产品榜两周年盛会:探索人工智能产业新格局

  • 通义开源网络智能体WebSailor开源:首个击败闭源巨头的网络智能体诞生

  • 腾讯混元3D-PolyGen:游戏建模的新时代已经到来

热点资讯

豆包网页版入口 | 官方链接直达 - 3秒免费使用

8天前
豆包网页版入口 | 官方链接直达 - 3秒免费使用

语音AI大突破!TEN Agent开源两模型,延迟低到飞起

7天前
语音AI大突破!TEN Agent开源两模型,延迟低到飞起

夸克AI助力高考志愿填报,4000万考生家长的靠谱之选

8小时前
夸克AI助力高考志愿填报,4000万考生家长的靠谱之选

谷歌宣布Gemini2.5Pro API在Google AI Studio平台上免费使用

8天前
谷歌宣布Gemini2.5Pro API在Google AI Studio平台上免费使用

通义千问Qwen-TTS语音合成模型大升级:新增三大中文方言,语音体验更丰富!

7天前
通义千问Qwen-TTS语音合成模型大升级:新增三大中文方言,语音体验更丰富!
分享
0
0

欢迎来到AI Top100!我们聚合全球500+款AI智能软件,提供最新资讯、热门课程和活动。我们致力于打造最专业的信息平台,让您轻松了解全球AI领域动态,并为您提供优质服务。

合作伙伴
联系我们
加入AITOP100社群
加入社群
AITOP100商务微信
商务微信
相关链接
服务及隐私政策
网站地图
关于我们
粤ICP备2022124843号-2粤公网安备44030002004505广播电视节目制作经营许可证:(粤)字第00712号Copyright © 华强方特(深圳)动漫有限公司 版权所有