音频问答迎来新王者:Omni-R1登场!
最近啊,科技圈又热闹了!MIT CSAIL、哥廷根大学、IBM 研究所的大佬们联手,推出了一款名叫Omni-R1的音频问答模型。这可不是一般的模型,它是在Qwen2.5-Omni的基础上,用一种叫做GRPO(Group Relative Policy Optimization)的强化学习方法给“升级”了一下,结果就像开了挂一样,在音频问答任务上表现贼溜!
打破认知:文本推理能力才是真大腿?
这Omni-R1厉害到什么程度呢?在著名的MMAU基准测试中,它直接刷新了记录,声音、语音、音乐,啥都难不倒它。更让人惊讶的是,研究团队发现,虽然模型训练的时候用了音频数据,但它性能提升的主要原因竟然是——文本推理能力的增强! 是不是有点颠覆认知?就好比说,你以为它是靠肌肉吃饭的,结果发现人家是靠脑子。
研究人员说,就算只用文本数据微调,模型的表现也能明显提升。为了让Omni-R1更上一层楼,他们还让ChatGPT帮忙生成了大量的音频问答数据,搞了两个新的数据集,一个叫AVQA-GPT,有4万条数据,另一个叫VGGS-GPT,更夸张,有18.2万条!
性能炸裂:平均得分71.3%!
有了这些数据加持,Omni-R1在训练过程中,简直是所向披靡,把之前的模型都甩在了身后,平均得分达到了71.3%。研究表明,虽然用音频进行微调比只用文本微调稍微好一点点,但文本的贡献那也是杠杠的,不能小觑。
GRPO大法好:48GB GPU轻松跑!
GRPO方法最给力的地方是它够省资源,在48GB的GPU上就能流畅运行。它通过比较分组输出,根据答案的正确性来给奖励,不需要用复杂的价值函数。为了增加训练数据,研究人员还通过扩展Qwen-2Audio的音频描述来提高模型的能力。总之,Omni-R1在多模态任务上是越来越有竞争力了。
未来可期:开源资源等你来玩!
Omni-R1的出现,不光是在音频问答领域立了个新标杆,也告诉我们文本推理在音频模型性能中有多重要。研究团队还说了,以后会把所有的相关资源都公开,让更多的研究人员和开发者都能用上这个成果。让我们一起期待Omni-R1在未来能带来更多惊喜吧!
论文地址:https://arxiv.org/abs/2505.09439