• 首页
  • AI工具集
  • AI资讯
  • AI活动
  • AI社区
  • AI短剧
  • AI创作大赛
  • AI小说
  • AI绘画
    AI视频
    AI对口型
    视频转动漫风格
    AI创意二维码
    AI艺术字
    AI智能抠图
  • AI短视频创作热门-AI社区
AI 对话

小米首个开源端到端语音大模型Xiaomi-MiMo-Audio,实现语音领域少样本泛化突破

小米首个开源端到端语音大模型Xiaomi-MiMo-Audio,实现语音领域少样本泛化突破
AI TOP100
2小时前

在人工智能飞速发展的当下,语音技术一直是备受瞩目的关键领域。然而,长期以来,语音领域的发展面临着诸多挑战,其中对大规模标注数据的依赖就像一道难以跨越的坎,严重限制了语音模型像语言模型那样具备少样本泛化能力。

不过,小米公司近日的一项重大举措,为语音技术领域带来了新的曙光——小米开源了首个原生端到端语音大模型Xiaomi-MiMo-Audio。

Xiaomi-MiMo-Audio

打破传统局限,实现关键突破

五年前,GPT-3的出现开启了语言通用人工智能(AGI)的新纪元,让语言模型展现出了强大的少样本泛化能力。但在语音领域,由于技术瓶颈,一直难以实现类似突破。小米此次推出的Xiaomi-MiMo-Audio模型却成功打破了这一局面。

该模型基于创新的预训练架构,并利用上亿小时的训练数据,首次在语音领域实现了基于In-Context Learning(ICL)的少样本泛化。在预训练过程中,还观察到了明显的“涌现”行为,这无疑是一次具有里程碑意义的突破,堪称语音领域的“GPT-3时刻”。

卓越性能,超越行业标杆

Xiaomi - MiMo - Audio模型在多个标准评测基准上的表现堪称惊艳。它不仅超越了同参数量的开源模型,更是在与行业巨头谷歌和OpenAI的闭源语音模型较量中脱颖而出。

在音频理解基准MMAU的标准测试集上,它超过了Google的闭源语音模型Gemini-2.5- Flash;在音频复杂推理基准Big Bench Audio S2T任务中,又超越了OpenAI的闭源语音模型GPT-4o-Audio-Preview。这一系列成绩充分展示了小米在语音技术领域的深厚实力,也为语音AI的发展指明了新的方向。

Xiaomi-MiMo-Audio

多项创新,引领行业变革

小米此次开源的Xiaomi - MiMo - Audio模型具有多项创新和首次突破。它是首个明确语音生成式预训练目标和定义的公司开源的模型,还开源了一套完整的语音预训练方案,涵盖无损压缩的Tokenizer、全新模型结构、训练方法和评测体系,开启了语音领域的“LLaMA时刻”。

具体来看,该模型首次证明了将语音无损压缩预训练扩展至1亿小时可以“涌现”出跨任务的泛化性,表现为少样本学习能力。而且,它还是首个将思考过程同时引入语音理解和语音生成过程中的开源模型,支持混合思考,这为语音模型的应用拓展了更广阔的空间。

开源内容丰富,助力研究发展

小米采取了简单、彻底和直接的开源风格,旨在促进语音研究领域的加速发展。此次开源的内容十分丰富,包括预训练模型MiMo - Audio-7B-Base和指令微调模型MiMo-Audio-7B-Instruct,以及Tokenizer模型、技术报告和评估框架。

其中,MiMo-Audio-7B-Instruct模型可通过prompt切换non - thinking和thinking两种模式,强化学习起点高、潜力足,可作为研究语音RL和Agentic训练的全新基座模型。

Tokenizer模型具有1.2B参数量,采用Transformer架构,兼顾效率与性能,从头开始训练,覆盖超过千万小时语音数据,同时支持音频重建任务和音频转文本任务。

技术报告全面展示了模型和训练细节,评估框架则支持10多个测评任务,并且已开源至GitHub,方便广大研究人员获取和使用。

未来携手共进

小米公司表示,Xiaomi-MiMo-Audio的开源将显著加速语音大模型研究对齐到语言大模型,为语音AGI的发展提供重要基础。小米将持续秉持开源精神,期待与每一位同行者携手,用开放与协作的力量,迈向语音AI的“奇点”,共同走进未来的人机交互时代。相信在小米的引领下,语音技术领域将迎来更加蓬勃的发展,为我们带来更多惊喜。


想了解AITOP100平台其它版块的内容,请点击下方超链接查看

AI创作大赛 | AI活动 | AI工具集 | AI资讯专区

AITOP100平台官方交流社群二维码:

aitop100官方交流30群

0
0
文章来源:AI TOP100
免责声明:本文不代表本平台立场,且不构成投资建议,请谨慎对待。
全部评论
暂无评论
相关资讯
  • 腾讯推出混元3D Studio:3D创作提速至分钟级,全流程一站式平台上线

  • 小米首个开源端到端语音大模型Xiaomi-MiMo-Audio,实现语音领域少样本泛化突破

  • ElevenLabs推出Studio3.0:集成AI语音、配乐与剪辑的一站式音视频制作平台

  • 腾讯混元发布集成翻译模型Hunyuan-MT-Chimera-7B,已开放体验

  • 针对Flux模型皮肤质感失真,腾讯混元SRPO技术显著提升图像真实感

热点资讯

Replit Agent3震撼登场:自主性飙升10倍,编程效率开启“狂飙”模式!

8天前
Replit Agent3震撼登场:自主性飙升10倍,编程效率开启“狂飙”模式!

VEED震撼发布全球首款AI会说话视频模型Fabric 1.0:一张图片秒变“会说话”视频

3天前
VEED震撼发布全球首款AI会说话视频模型Fabric 1.0:一张图片秒变“会说话”视频

OpenAI升级ChatGPT搜索功能:新增图像搜索,强化长对话理解

2天前
OpenAI升级ChatGPT搜索功能:新增图像搜索,强化长对话理解

豆包Seedream 4.0深度评测:字节跳动4K图像生成模型全面解析2025

4天前
豆包Seedream 4.0深度评测:字节跳动4K图像生成模型全面解析2025

快手上线AI视频制作助手磁力开创:从脚本到成片只需几分钟

8天前
快手上线AI视频制作助手磁力开创:从脚本到成片只需几分钟
分享
0
0

欢迎来到AI Top100!我们聚合全球500+款AI智能软件,提供最新资讯、热门课程和活动。我们致力于打造最专业的信息平台,让您轻松了解全球AI领域动态,并为您提供优质服务。

合作伙伴
联系我们
加入AITOP100社群
加入社群
AITOP100商务微信
商务微信
相关链接
服务及隐私政策
网站地图
关于我们
粤ICP备2022124843号-2粤公网安备44030002004505广播电视节目制作经营许可证:(粤)字第00712号Copyright © 华强方特(深圳)动漫有限公司 版权所有