阿里通义千问推出WorldPM偏好建模模型系列
最近,阿里Qwen团队可是火了一把,他们推出了全新的偏好建模模型系列——WorldPM!这玩意儿可不是闹着玩的,一推出就引爆了全球AI圈,听说是个偏好建模领域的重大突破呢!
WorldPM:规模化偏好建模,到底是个啥?
简单来说,WorldPM(World Preference Modeling)就是Qwen团队在偏好建模方面憋的大招!他们说,这模型可是用1500万条偏好数据喂大的,验证了偏好建模也遵循规模化定律。就像语言模型一样,数据和模型越大,它就越聪明,越能理解人类的喜好!
这个WorldPM-72B系列,可是有720亿参数的庞然大物!它的主要作用是评估和优化其他模型的输出,相当于一个“AI调教师”。 官方说了,用WorldPM微调比从头开始训练效果好多了,尤其是在需要理解人类偏好的场景下,简直是神器!有了它,强化学习和监督微调都变得更高效了!
开源才是王道!免费用,随便改!
阿里这次依然给力,秉承开源精神,WorldPM系列模型全都用Apache2.0协议发布了,现在已经在Hugging Face平台上线,全球开发者都可以免费下载和使用!这种开放的态度真是太赞了!X平台上已经有开发者欢呼雀跃,说WorldPM是“开源模型生态的新里程碑”,尤其是对搞监督学习和偏好评估的朋友们来说,简直是福音!
注意啦,WorldPM不是个万能的对话模型,它更像是个“偏好评分员”和“优化指导员”,专门给其他模型打分和提供优化建议。比如说,你可以用WorldPM-72B给生成式AI的回答打分,让它在特定任务上表现更好。 这样一来,它就在AI研发链中扮演了关键角色。
技术亮点:既要量大,也要活好!
为了训练WorldPM,Qwen团队从各种论坛收集了大量的偏好数据,涵盖了不同的用户群体,确保模型在不同文化和语言背景下都能适应。训练数据高达1500万条,模型参数从15亿到720亿不等,WorldPM展现了强大的泛化能力。 官方报告说,WorldPM在对抗性评估中表现出色,能有效识别故意出错、不相关或者不完整的回答。
更厉害的是,WorldPM还在风格偏见上做了优化。随着模型规模的扩大,它逐渐变得风格中立,克服了主观评估中常见的偏见。这使得它在客观领域表现尤为突出,尤其是在编码、数学等需要精确推理的任务中,简直是如虎添翼!