• 首页
  • AI工具集
  • AI资讯
  • AI活动
  • AI社区
  • AI短剧
  • AI创作大赛
  • AI小说
  • AI绘画
    AI视频
    AI对口型
    视频转动漫风格
    AI创意二维码
    AI艺术字
    AI智能抠图
  • AI短视频创作热门-AI社区
AI 对话

DeepSeek AI放大招:SPCT技术让AI奖励模型更聪明!

DeepSeek AI放大招:SPCT技术让AI奖励模型更聪明!
AI TOP100
2025-04-09 11:11:23

AI“裁判”升级!DeepSeek AI的SPCT技术是什么来头?

最近,咱国内的人工智能实验室DeepSeek AI又搞了个大新闻,继他们家那个厉害的开源语言模型DeepSeek-R1之后,又在大型语言模型(LLM)领域放了个大招,推出了一项叫做“自主演原则的批判调优”(简称SPCT)的创新技术。简单来说,就是想打造一个更通用、更强大的AI“奖励模型”。这玩意儿如果成了,AI在各种开放性任务和复杂环境里就能玩得更溜,应对能力蹭蹭上涨!

什么是奖励模型?为啥它很重要?

开发更高级的LLM,强化学习(RL)是关键一环。RL就像给AI请了个教练,通过反馈信号来调整模型的行为,让它说出来的话、写出来的文章更有质量。而奖励模型呢,就扮演着“裁判”的角色,负责给LLM的输出打分,告诉它做得好不好。这个分数,就是“奖励”。有了这个奖励,AI就能知道啥是对的,啥是错的,然后朝着正确的方向努力。

不过,现在的奖励模型也有不少毛病。在规则清楚、答案明确的领域,比如数学和编程,它们表现很棒。DeepSeek-R1在这方面能取得好成绩,很大程度上就是因为这些领域有标准答案。但要是在复杂、开放,甚至带点主观色彩的任务里,想搞出一个靠谱的奖励模型,那就难了。DeepSeek AI的研究人员就说了:“通用奖励模型需要在特定领域之外生成高质量的奖励,而这些领域的奖励标准更加多样和复杂,并且往往没有明确的参考或标准答案。”

奖励模型示意图

SPCT如何解决现有奖励模型的难题?

为了解决这些问题,DeepSeek AI的科学家们祭出了SPCT这个大杀器。他们认为,一个好的通用奖励模型需要解决以下四个关键问题:

  • 输入灵活性: 不管什么类型的输入,奖励模型都要能处理,而且能同时评估多个答案。
  • 准确性: 在各种复杂、没有标准答案的领域,奖励模型都要能给出准确的奖励信号。
  • 推理时可扩展性: 给模型更多计算资源进行推理,它给出的奖励质量应该更高。
  • 学习可扩展的行为: 为了让奖励模型在推理时能更好地扩展,它需要学会随着计算资源的增加而提高性能。

研究人员发现,通过让模型生成文本评论,然后根据评论打分的“基于点的生成式奖励建模”(GRM)方法,可以提供所需的灵活性和可扩展性。他们用GPT-4o和Gemma-2-27B等模型做了初步实验,结果表明,如果能用一些原则来指导生成式奖励模型,就能提高奖励的质量。这让他们意识到,可以通过扩展高质量原则和准确评论的生成,来实现奖励模型的推理时可扩展性。

SPCT的核心:自主演原则和批判调优

基于这些发现,DeepSeek 团队开发了SPCT技术,这项技术训练GRM根据查询和回复动态地生成原则和评论。研究人员认为,原则应该是“奖励生成的一部分,而不是一个预处理步骤”。通过这种方式,GRM可以根据其正在评估的任务即时生成原则,然后基于这些原则生成批判性意见。

SPCT技术原理

SPCT主要分两个阶段:

  1. 拒绝式微调: 这个阶段主要是训练GRM,让它能用正确的格式为各种输入类型生成原则和评论。模型会根据查询/回复生成原则、评论和奖励。只有当预测的奖励和真实情况一致时,生成的轨迹才会被接受,否则就被拒绝。模型会不断重复这个过程,在过滤后的示例上进行微调,以提高其原则/评论生成能力。
  2. 基于规则的强化学习: 这个阶段,模型会通过基于结果的强化学习进行进一步的微调。GRM为每个查询生成原则和评论,奖励信号基于简单的准确性规则计算。然后更新模型,鼓励GRM学习如何动态且可扩展地生成有效的原则和准确的评论。

为了应对推理时可扩展性的挑战,研究人员会让GRM对同一输入多次运行,生成不同的原则和评论集。最终的奖励通过投票确定。这样一来,模型就能考虑更广泛的视角,从而在获得更多资源时给出更准确的判断。

此外,为了解决一些生成的原则/评论可能质量不高或存在偏差的问题,研究人员还引入了一个“元奖励模型”(meta RM)。这个模型专门用于预测主要GRM生成的原则/评论是否可能导致正确的最终奖励。在推理过程中,元RM会评估生成的样本,过滤掉低质量的判断,进一步提高扩展性能。

DeepSeek-GRM的实力有多强?

研究人员将SPCT应用于谷歌的开源模型Gemma-2-27B,打造出了DeepSeek-GRM-27B。在各种测试中,他们将DeepSeek-GRM-27B与几种强大的基线RM进行了对比,结果表明,DeepSeek-GRM-27B的表现优于在相同数据上训练的基线方法。

DeepSeek-GRM性能表现

与标准微调相比,SPCT不仅提高了奖励的质量,还提升了推理时的可扩展性。通过生成更多样本进行推理时扩展,DeepSeek-GRM-27B的性能大幅提升,甚至超过了一些更大的模型。元RM的引入进一步提升了扩展性,实现了更好的结果。研究人员表示:“通过更大规模的采样,DeepSeek-GRM可以根据更多样化的原则做出更准确的判断,并输出更精细的奖励。”更棒的是,与在可验证任务上表现良好但在其他方面表现较差的标量RM相比,SPCT在不同领域表现出更少的偏差。

SPCT的未来:前景广阔,挑战犹存

更通用和可扩展的奖励模型,对于企业级AI应用来说,简直就是福音。创意任务以及模型必须适应动态环境的应用(比如不断变化的客户偏好),都能从中受益。

当然,DeepSeek-GRM也并非完美无缺。与非生成式RM相比,它在纯粹可验证的任务上的性能以及效率方面仍然存在挑战。DeepSeek 团队表示,未来的工作将侧重于提高效率和更深入的集成。他们总结道:“未来的方向可能包括将GRM集成到在线RL流程中,作为奖励系统的通用接口,探索与策略模型进行推理时协同扩展,或者作为基础模型的鲁棒离线评估器。”

更多AI行业最新资讯新闻信息(ai界最新新闻)请关注AI人工智能网站--AITOP100平台--AI资讯

0
0
文章来源:AI TOP100
免责声明:本文不代表本平台立场,且不构成投资建议,请谨慎对待。
全部评论
暂无评论
相关AI工具
  • DeepSeek‌:深度求索AI大模型
  • DeepSeek-V3-0324:DeepSeek先进文本生成模型
相关资讯
  • Luma AI Dream Machine“指令修改”来袭,视频创作要变天啦!

  • 通义万相国际版Wan2.2开源第2天:解锁场景布置新姿势

  • 告别繁琐!Genspark超级智能体与Outlook集成开启高效办公新姿势

  • 无需真机!如何用Google Maps和LTX Studio打造电影级无人机航拍大片

  • NotebookLM焕新登场:视频摘要功能震撼来袭!

热点资讯

豆包AI生图技术深度解析:引领中文图像生成新突破

5天前
豆包AI生图技术深度解析:引领中文图像生成新突破

阿里巴巴首款夸克AI眼镜惊艳亮相2025世界人工智能大会(WAIC)

4天前
阿里巴巴首款夸克AI眼镜惊艳亮相2025世界人工智能大会(WAIC)

YouTube Shorts大动作!AI特效来袭,照片秒变精彩视频

6天前
YouTube Shorts大动作!AI特效来袭,照片秒变精彩视频

Pika推出AI视频特效APP:自拍秒变创意大片,人人都是“导演”!

8天前
Pika推出AI视频特效APP:自拍秒变创意大片,人人都是“导演”!

创意加速!可灵AI"灵动画布"发布,多图参考功能迎来重大突破

2天前
创意加速!可灵AI"灵动画布"发布,多图参考功能迎来重大突破
分享
0
0

欢迎来到AI Top100!我们聚合全球500+款AI智能软件,提供最新资讯、热门课程和活动。我们致力于打造最专业的信息平台,让您轻松了解全球AI领域动态,并为您提供优质服务。

合作伙伴
联系我们
加入AITOP100社群
加入社群
AITOP100商务微信
商务微信
相关链接
服务及隐私政策
网站地图
关于我们
粤ICP备2022124843号-2粤公网安备44030002004505广播电视节目制作经营许可证:(粤)字第00712号Copyright © 华强方特(深圳)动漫有限公司 版权所有