阿里通义千问搞事情！WorldPM偏好模型炸场，开源共享，AI调教神器来了！-AITOP100,AI资讯

阿里通义千问推出WorldPM偏好建模模型系列

最近，阿里Qwen团队可是火了一把，他们推出了全新的偏好建模模型系列——WorldPM！这玩意儿可不是闹着玩的，一推出就引爆了全球AI圈，听说是个偏好建模领域的重大突破呢！

WorldPM：规模化偏好建模，到底是个啥？

简单来说，WorldPM（World Preference Modeling）就是Qwen团队在偏好建模方面憋的大招！他们说，这模型可是用1500万条偏好数据喂大的，验证了偏好建模也遵循规模化定律。就像语言模型一样，数据和模型越大，它就越聪明，越能理解人类的喜好！

这个WorldPM-72B系列，可是有720亿参数的庞然大物！它的主要作用是评估和优化其他模型的输出，相当于一个“AI调教师”。官方说了，用WorldPM微调比从头开始训练效果好多了，尤其是在需要理解人类偏好的场景下，简直是神器！有了它，强化学习和监督微调都变得更高效了！

开源才是王道！免费用，随便改！

阿里这次依然给力，秉承开源精神，WorldPM系列模型全都用Apache2.0协议发布了，现在已经在Hugging Face平台上线，全球开发者都可以免费下载和使用！这种开放的态度真是太赞了！X平台上已经有开发者欢呼雀跃，说WorldPM是“开源模型生态的新里程碑”，尤其是对搞监督学习和偏好评估的朋友们来说，简直是福音！

注意啦，WorldPM不是个万能的对话模型，它更像是个“偏好评分员”和“优化指导员”，专门给其他模型打分和提供优化建议。比如说，你可以用WorldPM-72B给生成式AI的回答打分，让它在特定任务上表现更好。这样一来，它就在AI研发链中扮演了关键角色。

技术亮点：既要量大，也要活好！

为了训练WorldPM，Qwen团队从各种论坛收集了大量的偏好数据，涵盖了不同的用户群体，确保模型在不同文化和语言背景下都能适应。训练数据高达1500万条，模型参数从15亿到720亿不等，WorldPM展现了强大的泛化能力。官方报告说，WorldPM在对抗性评估中表现出色，能有效识别故意出错、不相关或者不完整的回答。

更厉害的是，WorldPM还在风格偏见上做了优化。随着模型规模的扩大，它逐渐变得风格中立，克服了主观评估中常见的偏见。这使得它在客观领域表现尤为突出，尤其是在编码、数学等需要精确推理的任务中，简直是如虎添翼！

更多AI行业最新资讯新闻信息（ai界最新新闻）请关注AI 人工智能网站--AITOP100平台--AI资讯