在人工智能飞速发展的当下,语音技术一直是备受瞩目的关键领域。然而,长期以来,语音领域的发展面临着诸多挑战,其中对大规模标注数据的依赖就像一道难以跨越的坎,严重限制了语音模型像语言模型那样具备少样本泛化能力。
不过,小米公司近日的一项重大举措,为语音技术领域带来了新的曙光——小米开源了首个原生端到端语音大模型Xiaomi-MiMo-Audio。
打破传统局限,实现关键突破
五年前,GPT-3的出现开启了语言通用人工智能(AGI)的新纪元,让语言模型展现出了强大的少样本泛化能力。但在语音领域,由于技术瓶颈,一直难以实现类似突破。小米此次推出的Xiaomi-MiMo-Audio模型却成功打破了这一局面。
该模型基于创新的预训练架构,并利用上亿小时的训练数据,首次在语音领域实现了基于In-Context Learning(ICL)的少样本泛化。在预训练过程中,还观察到了明显的“涌现”行为,这无疑是一次具有里程碑意义的突破,堪称语音领域的“GPT-3时刻”。
卓越性能,超越行业标杆
Xiaomi - MiMo - Audio模型在多个标准评测基准上的表现堪称惊艳。它不仅超越了同参数量的开源模型,更是在与行业巨头谷歌和OpenAI的闭源语音模型较量中脱颖而出。
在音频理解基准MMAU的标准测试集上,它超过了Google的闭源语音模型Gemini-2.5- Flash;在音频复杂推理基准Big Bench Audio S2T任务中,又超越了OpenAI的闭源语音模型GPT-4o-Audio-Preview。这一系列成绩充分展示了小米在语音技术领域的深厚实力,也为语音AI的发展指明了新的方向。
多项创新,引领行业变革
小米此次开源的Xiaomi - MiMo - Audio模型具有多项创新和首次突破。它是首个明确语音生成式预训练目标和定义的公司开源的模型,还开源了一套完整的语音预训练方案,涵盖无损压缩的Tokenizer、全新模型结构、训练方法和评测体系,开启了语音领域的“LLaMA时刻”。
具体来看,该模型首次证明了将语音无损压缩预训练扩展至1亿小时可以“涌现”出跨任务的泛化性,表现为少样本学习能力。而且,它还是首个将思考过程同时引入语音理解和语音生成过程中的开源模型,支持混合思考,这为语音模型的应用拓展了更广阔的空间。
开源内容丰富,助力研究发展
小米采取了简单、彻底和直接的开源风格,旨在促进语音研究领域的加速发展。此次开源的内容十分丰富,包括预训练模型MiMo - Audio-7B-Base和指令微调模型MiMo-Audio-7B-Instruct,以及Tokenizer模型、技术报告和评估框架。
其中,MiMo-Audio-7B-Instruct模型可通过prompt切换non - thinking和thinking两种模式,强化学习起点高、潜力足,可作为研究语音RL和Agentic训练的全新基座模型。
Tokenizer模型具有1.2B参数量,采用Transformer架构,兼顾效率与性能,从头开始训练,覆盖超过千万小时语音数据,同时支持音频重建任务和音频转文本任务。
技术报告全面展示了模型和训练细节,评估框架则支持10多个测评任务,并且已开源至GitHub,方便广大研究人员获取和使用。
未来携手共进
小米公司表示,Xiaomi-MiMo-Audio的开源将显著加速语音大模型研究对齐到语言大模型,为语音AGI的发展提供重要基础。小米将持续秉持开源精神,期待与每一位同行者携手,用开放与协作的力量,迈向语音AI的“奇点”,共同走进未来的人机交互时代。相信在小米的引领下,语音技术领域将迎来更加蓬勃的发展,为我们带来更多惊喜。
想了解AITOP100平台其它版块的内容,请点击下方超链接查看
AI创作大赛 | AI活动 | AI工具集 | AI资讯专区
AITOP100平台官方交流社群二维码: