• 首页
  • AI工具集
  • AI资讯
  • AI活动
  • AI社区
  • AI短剧
  • AI创作大赛
  • AI小说
  • AI绘画
    AI视频
    AI对口型
    视频转动漫风格
    AI创意二维码
    AI艺术字
    AI智能抠图
  • AI短视频创作热门-AI社区
AI 对话

SimPO:革新大模型优化算法,实现与人类偏好的超级对齐

SimPO:革新大模型优化算法,实现与人类偏好的超级对齐
AI TOP100
2024-06-07 17:38:45

弗吉尼亚大学和普林斯顿大学的研究人员提出了一种新的优化方法——SimPO,旨在提高大模型的优化效率和输出质量随着ChatGPT等大型语言模型的影响力日益扩大,如何根据人类反馈优化这些模型的性能,减少非法内容的输出,成为了一个重要议题。传统的直接偏好优化(DPO)算法虽然在离线偏好优化中得到了广泛应用,但其依赖参考模型的奖励函数导致了算力和内存需求的大幅增加,并且在训练与推理过程中存在度量不一致的问题。

针对这些挑战,弗吉尼亚大学和普林斯顿大学的研究人员提出了一种新的优化方法——SimPO,旨在提高大模型的优化效率和输出质量。

SimPO的创新之处

SimPO在DPO的基础上进行了重大创新,它采用序列的平均对数概率作为隐式奖励机制,这一设计直接与模型生成过程对齐,并消除了对参考模型的依赖,从而显著提升了计算效率和内存使用率。

此外,SimPO引入了“目标奖励边际”概念,将其嵌入到布拉德利-特里比较模型中。这一边际设定使得胜出的模型响应与失败的响应之间形成更大的差距,有效增强了算法的区分度,优化了分类效果,使模型输出更符合人类偏好。

自由奖励函数

SimPO的自由奖励函数不依赖于任何外部参考模型,而是直接使用策略模型本身来计算奖励,确保了奖励函数与模型生成过程中使用的度量(即平均对数似然)直接对齐,从而在生成响应时能够更精确地优化目标。

长度归一化技术

SimPO通过将奖励函数除以序列长度,确保了奖励与序列长度无关,避免了模型在生成过程中对长度的过度依赖,提高了生成质量。

SimPO的实验数据

研究团队在Mistral系列和Llama3等知名模型的预训练下,对SimPO进行了广泛的比较实验,并在AlpacaEval 2、MT-Bench和Arena-Hard等基准测试中进行了评估。实验结果表明,SimPO在所有测试中均展现出优于DPO及其他技术的性能。特别是在AlpacaEval 2上,SimPO的提升幅度最大可达6.4分,在Arena-Hard上达到了7.5分。SimPO的实验数据

特别值得一提的是,基于Llama3-8B-Instruct构建的模型,在应用SimPO算法后,在AlpacaEval 2上的表现达到了惊人的44.7%的控制长度胜率,超越了排行榜上的Claude 3 Opus,并在Arena-Hard上取得了33.8%的胜率,成为高性能的80亿参数开源大模型。

结论

SimPO作为一种新型的偏好优化算法,不仅在理论上展现了其创新性和有效性,而且在实际应用中也证明了其卓越的性能。它为大型语言模型的优化提供了一种更加高效、更加符合人类偏好的解决方案,有望推动人工智能领域向更安全、更可靠的方向发展。

论文地址:https://arxiv.org/abs/2405.14734  

Github地址:https://github.com/princeton-nlp/SimPO

AITOP100平台资讯专区: https://www.aitop100.cn/infomation/index.html

0
0
文章来源:AI TOP100
免责声明:本文不代表本平台立场,且不构成投资建议,请谨慎对待。
全部评论
暂无评论
相关AI工具
  • ChatGPT
相关资讯
  • 2025年9月18日Higgsfield发推文宣布首届AI世界巡演—KION 2026即将开启!

  • Midjourney升级“样式探索器”:样式库翻倍,新增模糊搜索与风格参考功能

  • ChatGPT网页端新增GPT-5 Thinking“思考模式”调节选项,用户可自主平衡响应速度与回答深度

  • Meta发布首款带显示屏的AI眼镜Ray-Ban Display,售价799美元

  • 重磅!马斯克宣布Grok5数周内开训,AI江湖再掀风云

热点资讯

Replit Agent3震撼登场:自主性飙升10倍,编程效率开启“狂飙”模式!

7天前
Replit Agent3震撼登场:自主性飙升10倍,编程效率开启“狂飙”模式!

豆包Seedream 4.0深度评测:字节跳动4K图像生成模型全面解析2025

3天前
豆包Seedream 4.0深度评测:字节跳动4K图像生成模型全面解析2025

OpenAI升级ChatGPT搜索功能:新增图像搜索,强化长对话理解

1天前
OpenAI升级ChatGPT搜索功能:新增图像搜索,强化长对话理解

VEED震撼发布全球首款AI会说话视频模型Fabric 1.0:一张图片秒变“会说话”视频

2天前
VEED震撼发布全球首款AI会说话视频模型Fabric 1.0:一张图片秒变“会说话”视频

快手上线AI视频制作助手磁力开创:从脚本到成片只需几分钟

7天前
快手上线AI视频制作助手磁力开创:从脚本到成片只需几分钟
分享
0
0

欢迎来到AI Top100!我们聚合全球500+款AI智能软件,提供最新资讯、热门课程和活动。我们致力于打造最专业的信息平台,让您轻松了解全球AI领域动态,并为您提供优质服务。

合作伙伴
联系我们
加入AITOP100社群
加入社群
AITOP100商务微信
商务微信
相关链接
服务及隐私政策
网站地图
关于我们
粤ICP备2022124843号-2粤公网安备44030002004505广播电视节目制作经营许可证:(粤)字第00712号Copyright © 华强方特(深圳)动漫有限公司 版权所有