昆仑万维发布Skywork-Reward-V2：开源奖励模型新突破，7项评测全面夺冠-AITOP100,AI资讯

7月4日，昆仑万维正式开源第二代奖励模型Skywork-Reward-V2系列，这一重磅发布立即引起业界广泛关注。该系列包含8个不同规模的奖励模型，参数从6亿到80亿不等，在七大主流评测榜单中实现全面领先，标志着国产开源AI模型再次取得重大突破。

Skywork-Reward-V2

什么是奖励模型？为什么如此重要？

在人工智能发展过程中，奖励模型（Reward Model）扮演着“AI价值观引导者”的关键角色。它主要用于RLHF（基于人类反馈的强化学习）过程，帮助AI模型更好地理解和遵循人类的价值判断。

简单来说，奖励模型就像是AI的“良心”，它能够判断AI生成的内容是否符合人类期望，从而指导模型朝着更加安全、有用的方向发展。这项技术在ChatGPT等大型语言模型的训练中发挥了至关重要的作用。

昆仑万维团队构建了包含4000万对偏好对比的混合数据集Skywork-SynPref-40M，这是目前业界规模最大的偏好数据集之一。更重要的是，团队采用了创新的“人机协同两阶段流程”：

Skywork-Reward-V2

Skywork-Reward-V2系列提供了8个基于不同基座模型的版本，包括基于Qwen3和LLaMA3系列的模型，参数规模从6亿到80亿，满足不同计算资源和应用需求。

最小的Skywork-Reward-V2-Qwen3-0.6B模型虽然参数量较少，但整体性能已经接近上一代最强模型的平均水平。而最大规模的Skywork-Reward-V2-Llama-3.1-8B更是在所有主流基准测试中实现全面超越，成为当前开源奖励模型的新标杆。

Skywork-Reward-V2在Reward Bench v1/v2、PPE Preference & Correctness、RMB、RM-Bench、JudgeBench等七个权威评测中全部获得第一名，这一成绩背后反映了模型在多个关键能力上的全面领先：

仅用1.8%的高质量数据训练8B规模模型，性能就超过了当前70B级别的顶级奖励模型。这一突破性成果证明了数据质量比数量更重要，也为后续模型训练提供了新思路。

通过精细的数据筛选和过滤流程，第二阶段的全自动数据扩展显著降低了人工标注成本，同时保持了模型性能的持续提升。这种方法具有很强的扩展性，为大规模商业应用奠定了基础。

昆仑万维选择开源Skywork-Reward-V2系列，对整个AI开源生态具有重要意义：

目前，Skywork-Reward-V2系列已在HuggingFace平台正式发布，开发者可以通过以下方式获取：

Skywork-Reward-V2的发布标志着国产AI模型在奖励模型领域实现了全面突破。这不仅提升了中国在AI核心技术领域的话语权，也为全球AI安全对齐研究贡献了重要力量。

随着模型的广泛应用，我们有理由相信，更多基于人类价值观的AI应用将快速涌现，为各行各业带来更安全、更可靠的AI解决方案。

对于关注AI技术发展的企业和开发者而言，Skywork-Reward-V2的开源无疑提供了一个难得的学习和应用机会。在这个AI快速发展的时代，掌握先进的奖励模型技术将成为保持竞争优势的关键因素。

想了解AITOP100平台其它版块的内容，请点击下方超链接查看

AITOP100平台官方交流社群二维码：

AITOP100平台大赛社群二维码