DeepSeek AI放大招：SPCT技术让AI奖励模型更聪明！-AITOP100,AI资讯

AI“裁判”升级！DeepSeek AI的SPCT技术是什么来头？

最近，咱国内的人工智能实验室DeepSeek AI又搞了个大新闻，继他们家那个厉害的开源语言模型DeepSeek-R1之后，又在大型语言模型（LLM）领域放了个大招，推出了一项叫做“自主演原则的批判调优”（简称SPCT）的创新技术。简单来说，就是想打造一个更通用、更强大的AI“奖励模型”。这玩意儿如果成了，AI在各种开放性任务和复杂环境里就能玩得更溜，应对能力蹭蹭上涨！

什么是奖励模型？为啥它很重要？

开发更高级的LLM，强化学习（RL）是关键一环。RL就像给AI请了个教练，通过反馈信号来调整模型的行为，让它说出来的话、写出来的文章更有质量。而奖励模型呢，就扮演着“裁判”的角色，负责给LLM的输出打分，告诉它做得好不好。这个分数，就是“奖励”。有了这个奖励，AI就能知道啥是对的，啥是错的，然后朝着正确的方向努力。

不过，现在的奖励模型也有不少毛病。在规则清楚、答案明确的领域，比如数学和编程，它们表现很棒。DeepSeek-R1在这方面能取得好成绩，很大程度上就是因为这些领域有标准答案。但要是在复杂、开放，甚至带点主观色彩的任务里，想搞出一个靠谱的奖励模型，那就难了。DeepSeek AI的研究人员就说了：“通用奖励模型需要在特定领域之外生成高质量的奖励，而这些领域的奖励标准更加多样和复杂，并且往往没有明确的参考或标准答案。”

SPCT如何解决现有奖励模型的难题？

为了解决这些问题，DeepSeek AI的科学家们祭出了SPCT这个大杀器。他们认为，一个好的通用奖励模型需要解决以下四个关键问题：

输入灵活性：不管什么类型的输入，奖励模型都要能处理，而且能同时评估多个答案。
准确性：在各种复杂、没有标准答案的领域，奖励模型都要能给出准确的奖励信号。
推理时可扩展性：给模型更多计算资源进行推理，它给出的奖励质量应该更高。
学习可扩展的行为：为了让奖励模型在推理时能更好地扩展，它需要学会随着计算资源的增加而提高性能。

研究人员发现，通过让模型生成文本评论，然后根据评论打分的“基于点的生成式奖励建模”（GRM）方法，可以提供所需的灵活性和可扩展性。他们用GPT-4o和Gemma-2-27B等模型做了初步实验，结果表明，如果能用一些原则来指导生成式奖励模型，就能提高奖励的质量。这让他们意识到，可以通过扩展高质量原则和准确评论的生成，来实现奖励模型的推理时可扩展性。

SPCT的核心：自主演原则和批判调优

基于这些发现，DeepSeek 团队开发了SPCT技术，这项技术训练GRM根据查询和回复动态地生成原则和评论。研究人员认为，原则应该是“奖励生成的一部分，而不是一个预处理步骤”。通过这种方式，GRM可以根据其正在评估的任务即时生成原则，然后基于这些原则生成批判性意见。

SPCT主要分两个阶段：

拒绝式微调：这个阶段主要是训练GRM，让它能用正确的格式为各种输入类型生成原则和评论。模型会根据查询/回复生成原则、评论和奖励。只有当预测的奖励和真实情况一致时，生成的轨迹才会被接受，否则就被拒绝。模型会不断重复这个过程，在过滤后的示例上进行微调，以提高其原则/评论生成能力。
基于规则的强化学习：这个阶段，模型会通过基于结果的强化学习进行进一步的微调。GRM为每个查询生成原则和评论，奖励信号基于简单的准确性规则计算。然后更新模型，鼓励GRM学习如何动态且可扩展地生成有效的原则和准确的评论。

为了应对推理时可扩展性的挑战，研究人员会让GRM对同一输入多次运行，生成不同的原则和评论集。最终的奖励通过投票确定。这样一来，模型就能考虑更广泛的视角，从而在获得更多资源时给出更准确的判断。

此外，为了解决一些生成的原则/评论可能质量不高或存在偏差的问题，研究人员还引入了一个“元奖励模型”（meta RM）。这个模型专门用于预测主要GRM生成的原则/评论是否可能导致正确的最终奖励。在推理过程中，元RM会评估生成的样本，过滤掉低质量的判断，进一步提高扩展性能。

DeepSeek-GRM的实力有多强？

研究人员将SPCT应用于谷歌的开源模型Gemma-2-27B，打造出了DeepSeek-GRM-27B。在各种测试中，他们将DeepSeek-GRM-27B与几种强大的基线RM进行了对比，结果表明，DeepSeek-GRM-27B的表现优于在相同数据上训练的基线方法。

与标准微调相比，SPCT不仅提高了奖励的质量，还提升了推理时的可扩展性。通过生成更多样本进行推理时扩展，DeepSeek-GRM-27B的性能大幅提升，甚至超过了一些更大的模型。元RM的引入进一步提升了扩展性，实现了更好的结果。研究人员表示：“通过更大规模的采样，DeepSeek-GRM可以根据更多样化的原则做出更准确的判断，并输出更精细的奖励。”更棒的是，与在可验证任务上表现良好但在其他方面表现较差的标量RM相比，SPCT在不同领域表现出更少的偏差。

SPCT的未来：前景广阔，挑战犹存

更通用和可扩展的奖励模型，对于企业级AI应用来说，简直就是福音。创意任务以及模型必须适应动态环境的应用（比如不断变化的客户偏好），都能从中受益。

当然，DeepSeek-GRM也并非完美无缺。与非生成式RM相比，它在纯粹可验证的任务上的性能以及效率方面仍然存在挑战。DeepSeek 团队表示，未来的工作将侧重于提高效率和更深入的集成。他们总结道：“未来的方向可能包括将GRM集成到在线RL流程中，作为奖励系统的通用接口，探索与策略模型进行推理时协同扩展，或者作为基础模型的鲁棒离线评估器。”

更多AI行业最新资讯新闻信息（ai界最新新闻）请关注AI 人工智能网站--AITOP100平台--AI资讯