阶跃星辰发布端到端语音大模型Step-Audio2mini：重新定义“听得懂、会思考、能表达”的AI语音交互-AITOP100,AI资讯

Step-Audio2mini

2025年9月1日，阶跃星辰正式开源发布端到端语音大模型Step-Audio2mini，以“真端到端架构+链式思维推理+工具调用能力”三大核心突破，在语音理解、多语种翻译、情感解析等任务中刷新行业标杆，成为首个全面超越GPT-4o Audio的开源语音模型。这款被用户称为“听得清楚、想得明白、说得自然”的模型，正在重新定义AI语音交互的技术边界。

技术突破：

传统语音模型多采用“ASR（语音识别）+LLM（大语言模型）+TTS（语音合成）”三级架构，存在信息损耗大、时延高、副语言信息丢失等问题。Step-Audio2mini通过真端到端多模态架构，实现从原始音频输入到语音响应输出的直接转换，架构更简洁、时延降低40%，同时能精准捕捉情绪、语调、背景音乐等副语言信号。

更关键的是，模型在端到端语音模型中首次引入链式思维推理（CoT）与强化学习联合优化，让模型能像人类一样“分步骤思考”。例如，当用户提问“这首钢琴曲的作者是谁？”时，模型会先识别音乐片段→匹配数据库→验证信息→生成回答，而非直接输出结果，推理准确率提升25%。

性能碾压：

在多项权威测试中，Step-Audio2mini展现全面优势：

通用音频理解：在MMAU测试集以73.2分登顶开源模型榜首，超越Qwen-Omni（68.5分）、GPT-4o Audio（71.9分）；
口语对话能力：在URO Bench基础与专业赛道均获开源模型最高分，复杂场景理解能力提升30%；
多语种翻译：中英互译任务中，CoVoST2得分39.3、CVSS得分29.1，领先GPT-4o Audio（37.8/27.5）及其他开源模型；
语音识别：中文测试集平均字错误率（CER）3.19%，英语词错误率（WER）3.50%，较其他开源模型降低15%以上。