厉害了！Omni-R1音频问答模型横空出世，文本推理竟是王炸？-AITOP100,AI资讯

音频问答迎来新王者：Omni-R1登场！

最近啊，科技圈又热闹了！MIT CSAIL、哥廷根大学、IBM 研究所的大佬们联手，推出了一款名叫Omni-R1的音频问答模型。这可不是一般的模型，它是在Qwen2.5-Omni的基础上，用一种叫做GRPO（Group Relative Policy Optimization）的强化学习方法给“升级”了一下，结果就像开了挂一样，在音频问答任务上表现贼溜！

打破认知：文本推理能力才是真大腿？

这Omni-R1厉害到什么程度呢？在著名的MMAU基准测试中，它直接刷新了记录，声音、语音、音乐，啥都难不倒它。更让人惊讶的是，研究团队发现，虽然模型训练的时候用了音频数据，但它性能提升的主要原因竟然是——文本推理能力的增强！是不是有点颠覆认知？就好比说，你以为它是靠肌肉吃饭的，结果发现人家是靠脑子。

研究人员说，就算只用文本数据微调，模型的表现也能明显提升。为了让Omni-R1更上一层楼，他们还让ChatGPT帮忙生成了大量的音频问答数据，搞了两个新的数据集，一个叫AVQA-GPT，有4万条数据，另一个叫VGGS-GPT，更夸张，有18.2万条！

性能炸裂：平均得分71.3%！

有了这些数据加持，Omni-R1在训练过程中，简直是所向披靡，把之前的模型都甩在了身后，平均得分达到了71.3%。研究表明，虽然用音频进行微调比只用文本微调稍微好一点点，但文本的贡献那也是杠杠的，不能小觑。

GRPO大法好：48GB GPU轻松跑！

GRPO方法最给力的地方是它够省资源，在48GB的GPU上就能流畅运行。它通过比较分组输出，根据答案的正确性来给奖励，不需要用复杂的价值函数。为了增加训练数据，研究人员还通过扩展Qwen-2Audio的音频描述来提高模型的能力。总之，Omni-R1在多模态任务上是越来越有竞争力了。

未来可期：开源资源等你来玩！

Omni-R1的出现，不光是在音频问答领域立了个新标杆，也告诉我们文本推理在音频模型性能中有多重要。研究团队还说了，以后会把所有的相关资源都公开，让更多的研究人员和开发者都能用上这个成果。让我们一起期待Omni-R1在未来能带来更多惊喜吧！

论文地址：https://arxiv.org/abs/2505.09439

更多AI行业最新资讯新闻信息（ai界最新新闻）请关注AI 人工智能网站--AITOP100平台--AI资讯