• 首页
  • AI工具集
  • AI资讯
  • AI活动
  • AI社区
  • AI短剧
  • AI创作大赛
  • AI小说
  • AI绘画
    AI视频
    AI对口型
    视频转动漫风格
    AI创意二维码
    AI艺术字
    AI智能抠图
  • AI短视频创作热门-AI社区
AI 对话

厉害了!Omni-R1音频问答模型横空出世,文本推理竟是王炸?

厉害了!Omni-R1音频问答模型横空出世,文本推理竟是王炸?
AI TOP100
2025-05-20 14:00:38

音频问答迎来新王者:Omni-R1登场!

最近啊,科技圈又热闹了!MIT CSAIL、哥廷根大学、IBM 研究所的大佬们联手,推出了一款名叫Omni-R1的音频问答模型。这可不是一般的模型,它是在Qwen2.5-Omni的基础上,用一种叫做GRPO(Group Relative Policy Optimization)的强化学习方法给“升级”了一下,结果就像开了挂一样,在音频问答任务上表现贼溜!

Omni-R1

打破认知:文本推理能力才是真大腿?

这Omni-R1厉害到什么程度呢?在著名的MMAU基准测试中,它直接刷新了记录,声音、语音、音乐,啥都难不倒它。更让人惊讶的是,研究团队发现,虽然模型训练的时候用了音频数据,但它性能提升的主要原因竟然是——文本推理能力的增强! 是不是有点颠覆认知?就好比说,你以为它是靠肌肉吃饭的,结果发现人家是靠脑子。

研究人员说,就算只用文本数据微调,模型的表现也能明显提升。为了让Omni-R1更上一层楼,他们还让ChatGPT帮忙生成了大量的音频问答数据,搞了两个新的数据集,一个叫AVQA-GPT,有4万条数据,另一个叫VGGS-GPT,更夸张,有18.2万条!

性能炸裂:平均得分71.3%!

有了这些数据加持,Omni-R1在训练过程中,简直是所向披靡,把之前的模型都甩在了身后,平均得分达到了71.3%。研究表明,虽然用音频进行微调比只用文本微调稍微好一点点,但文本的贡献那也是杠杠的,不能小觑。

GRPO大法好:48GB GPU轻松跑!

GRPO方法最给力的地方是它够省资源,在48GB的GPU上就能流畅运行。它通过比较分组输出,根据答案的正确性来给奖励,不需要用复杂的价值函数。为了增加训练数据,研究人员还通过扩展Qwen-2Audio的音频描述来提高模型的能力。总之,Omni-R1在多模态任务上是越来越有竞争力了。

未来可期:开源资源等你来玩!

Omni-R1的出现,不光是在音频问答领域立了个新标杆,也告诉我们文本推理在音频模型性能中有多重要。研究团队还说了,以后会把所有的相关资源都公开,让更多的研究人员和开发者都能用上这个成果。让我们一起期待Omni-R1在未来能带来更多惊喜吧!

论文地址:https://arxiv.org/abs/2505.09439

更多AI行业最新资讯新闻信息(ai界最新新闻)请关注AI人工智能网站--AITOP100平台--AI资讯

0
0
文章来源:AI TOP100
免责声明:本文不代表本平台立场,且不构成投资建议,请谨慎对待。
全部评论
暂无评论
相关资讯
  • 细思极恐!Meta竟然用色情片训练AI,背后隐藏的人性黑洞让人不寒而栗

  • 2025年自主AI智能体全景图:12款顶级产品深度评测与企业应用指南

  • Genie 3革命性突破:从2D游戏到3D世界,Google的AGI世界模型如何重塑未来?

  • Gamma AI:从"模板选择"到"内容驱动"的演示工具范式突破

  • AI行业震荡周:DeepSeek V3.1颠覆格局,人才缺口破500万大关 | 2025年8月第三周全景报告

热点资讯

即梦AI智能多帧功能上线:10张图生成54秒超长镜头,视频创作门槛大降!

1天前
即梦AI智能多帧功能上线:10张图生成54秒超长镜头,视频创作门槛大降!

DeepSeek V3.1正式发布:128K上下文窗口重新定义AI模型能力边界

4天前
DeepSeek V3.1正式发布:128K上下文窗口重新定义AI模型能力边界

可灵2.1首尾帧功能炸场!影视级转场+复杂运镜,一键解锁创作自由!

1天前
可灵2.1首尾帧功能炸场!影视级转场+复杂运镜,一键解锁创作自由!

AITOP100 AI应用重磅更新!Veo3、即梦AI 3.0、Vidu Q1、海螺AI、Luma全新升级

3天前
AITOP100 AI应用重磅更新!Veo3、即梦AI 3.0、Vidu Q1、海螺AI、Luma全新升级

DeepSeek V3.1全面技术解读:从架构到应用的系统性评估与对比分析

4天前
DeepSeek V3.1全面技术解读:从架构到应用的系统性评估与对比分析
分享
0
0

欢迎来到AI Top100!我们聚合全球500+款AI智能软件,提供最新资讯、热门课程和活动。我们致力于打造最专业的信息平台,让您轻松了解全球AI领域动态,并为您提供优质服务。

合作伙伴
联系我们
加入AITOP100社群
加入社群
AITOP100商务微信
商务微信
相关链接
服务及隐私政策
网站地图
关于我们
粤ICP备2022124843号-2粤公网安备44030002004505广播电视节目制作经营许可证:(粤)字第00712号Copyright © 华强方特(深圳)动漫有限公司 版权所有