2025年9月1日,阶跃星辰正式开源发布端到端语音大模型Step-Audio2mini,以“真端到端架构+链式思维推理+工具调用能力”三大核心突破,在语音理解、多语种翻译、情感解析等任务中刷新行业标杆,成为首个全面超越GPT-4o Audio的开源语音模型。这款被用户称为“听得清楚、想得明白、说得自然”的模型,正在重新定义AI语音交互的技术边界。
技术突破:
传统语音模型多采用“ASR(语音识别)+LLM(大语言模型)+TTS(语音合成)”三级架构,存在信息损耗大、时延高、副语言信息丢失等问题。Step-Audio2mini通过真端到端多模态架构,实现从原始音频输入到语音响应输出的直接转换,架构更简洁、时延降低40%,同时能精准捕捉情绪、语调、背景音乐等副语言信号。
更关键的是,模型在端到端语音模型中首次引入链式思维推理(CoT)与强化学习联合优化,让模型能像人类一样“分步骤思考”。例如,当用户提问“这首钢琴曲的作者是谁?”时,模型会先识别音乐片段→匹配数据库→验证信息→生成回答,而非直接输出结果,推理准确率提升25%。
性能碾压:
在多项权威测试中,Step-Audio2mini展现全面优势:
- 通用音频理解:在MMAU测试集以73.2分登顶开源模型榜首,超越Qwen-Omni(68.5分)、GPT-4o Audio(71.9分);
- 口语对话能力:在URO Bench基础与专业赛道均获开源模型最高分,复杂场景理解能力提升30%;
- 多语种翻译:中英互译任务中,CoVoST2得分39.3、CVSS得分29.1,领先GPT-4o Audio(37.8/27.5)及其他开源模型;
- 语音识别:中文测试集平均字错误率(CER)3.19%,英语词错误率(WER)3.50%,较其他开源模型降低15%以上。
场景落地:
Step-Audio2mini不仅“听得懂”,更能“会做事”。通过支持语音原生Tool Calling能力,模型可调用网页搜索、计算工具等外部资源,解决传统语音模型易“幻觉”的问题。例如:
- 用户询问“今天北京天气如何?”,模型会直接联网搜索实时数据并播报;
- 听到一段陌生音乐,模型可识别旋律→搜索数据库→告知用户“这是《月光奏鸣曲》第三乐章”;
- 面对哲学问题“人生的意义是什么?”,模型会分步骤推理,最终给出“探索、连接、成长”的极简方法论。
开源生态:
Step-Audio2mini已上线GitHub、Hugging Face等平台,支持开发者快速调用。其真端到端架构降低了模型部署门槛,单张A100显卡即可运行;多语言支持覆盖中文、英语、方言等场景,适配医疗、教育、客服等多领域需求。
项目地址: https://github.com/stepfun-ai/Step-Audio2 (海外网站需要科学上网)
语音AI进入“端到端”新时代
Step-Audio2mini的发布,标志着语音交互从“任务式处理”迈向“类人化思考”。其创新的架构设计、强大的推理能力与工具调用生态,不仅为开发者提供了更高效的研发工具,更让“语音原生”应用(如智能客服、无障碍交互、语音创作)迎来爆发可能。
(本文由AI辅助生成,部分内容人工编辑)
想了解AITOP100平台其它版块的内容,请点击下方超链接查看
AI创作大赛 | AI活动 | AI工具集 | AI资讯专区
AITOP100平台官方交流社群二维码: