• 首页
  • AI工具集
  • AI资讯
  • AI活动
  • AI社区
  • AI短剧
  • AI创作大赛
  • AI小说
  • AI绘画
    AI视频
    AI对口型
    视频转动漫风格
    AI创意二维码
    AI艺术字
    AI智能抠图
  • AI短视频创作热门-AI社区
AI 对话

阶跃星辰发布端到端语音大模型Step-Audio2mini:重新定义“听得懂、会思考、能表达”的AI语音交互

阶跃星辰发布端到端语音大模型Step-Audio2mini:重新定义“听得懂、会思考、能表达”的AI语音交互
AI TOP100
2小时前

Step-Audio2mini

2025年9月1日,阶跃星辰正式开源发布端到端语音大模型Step-Audio2mini,以“真端到端架构+链式思维推理+工具调用能力”三大核心突破,在语音理解、多语种翻译、情感解析等任务中刷新行业标杆,成为首个全面超越GPT-4o Audio的开源语音模型。这款被用户称为“听得清楚、想得明白、说得自然”的模型,正在重新定义AI语音交互的技术边界。

技术突破:

传统语音模型多采用“ASR(语音识别)+LLM(大语言模型)+TTS(语音合成)”三级架构,存在信息损耗大、时延高、副语言信息丢失等问题。Step-Audio2mini通过真端到端多模态架构,实现从原始音频输入到语音响应输出的直接转换,架构更简洁、时延降低40%,同时能精准捕捉情绪、语调、背景音乐等副语言信号。

更关键的是,模型在端到端语音模型中首次引入链式思维推理(CoT)与强化学习联合优化,让模型能像人类一样“分步骤思考”。例如,当用户提问“这首钢琴曲的作者是谁?”时,模型会先识别音乐片段→匹配数据库→验证信息→生成回答,而非直接输出结果,推理准确率提升25%。

性能碾压:

在多项权威测试中,Step-Audio2mini展现全面优势:

  • 通用音频理解:在MMAU测试集以73.2分登顶开源模型榜首,超越Qwen-Omni(68.5分)、GPT-4o Audio(71.9分);
  • 口语对话能力:在URO Bench基础与专业赛道均获开源模型最高分,复杂场景理解能力提升30%;
  • 多语种翻译:中英互译任务中,CoVoST2得分39.3、CVSS得分29.1,领先GPT-4o Audio(37.8/27.5)及其他开源模型;
  • 语音识别:中文测试集平均字错误率(CER)3.19%,英语词错误率(WER)3.50%,较其他开源模型降低15%以上。

Step-Audio2mini

场景落地:

Step-Audio2mini不仅“听得懂”,更能“会做事”。通过支持语音原生Tool Calling能力,模型可调用网页搜索、计算工具等外部资源,解决传统语音模型易“幻觉”的问题。例如:

  • 用户询问“今天北京天气如何?”,模型会直接联网搜索实时数据并播报;
  • 听到一段陌生音乐,模型可识别旋律→搜索数据库→告知用户“这是《月光奏鸣曲》第三乐章”;
  • 面对哲学问题“人生的意义是什么?”,模型会分步骤推理,最终给出“探索、连接、成长”的极简方法论。

开源生态:

Step-Audio2mini已上线GitHub、Hugging Face等平台,支持开发者快速调用。其真端到端架构降低了模型部署门槛,单张A100显卡即可运行;多语言支持覆盖中文、英语、方言等场景,适配医疗、教育、客服等多领域需求。

项目地址: https://github.com/stepfun-ai/Step-Audio2  (海外网站需要科学上网)

语音AI进入“端到端”新时代

Step-Audio2mini的发布,标志着语音交互从“任务式处理”迈向“类人化思考”。其创新的架构设计、强大的推理能力与工具调用生态,不仅为开发者提供了更高效的研发工具,更让“语音原生”应用(如智能客服、无障碍交互、语音创作)迎来爆发可能。

(本文由AI辅助生成,部分内容人工编辑)


想了解AITOP100平台其它版块的内容,请点击下方超链接查看

AI创作大赛 | AI活动 | AI工具集 | AI资讯专区

AITOP100平台官方交流社群二维码:

AITOP100平台官方交流社群二维码

0
0
文章来源:AI TOP100
免责声明:本文不代表本平台立场,且不构成投资建议,请谨慎对待。
全部评论
暂无评论
相关资讯
  • 阶跃星辰发布端到端语音大模型Step-Audio2mini:重新定义“听得懂、会思考、能表达”的AI语音交互

  • 蚂蚁开源MedResearcher-R1:医疗AI推理的“智能引擎”,为精准医疗研究注入新动能

  • 上海AI实验室重磅开源书生·万象InternVL3.5:多模态大模型技术再突破,推理性能提升16%

  • 重磅更新!AITOP100平台接入Google Gemini 2.5 Flash Image模型,可免费体验Nano Banana!

  • 9月1日AI内容标识新规落地!从业者必知的生存指南:不合规直接承担法律风险

热点资讯

谷歌放大招!AI视频工具Google Vids免费开放,普通用户也能玩转专业剪辑

4天前
谷歌放大招!AI视频工具Google Vids免费开放,普通用户也能玩转专业剪辑

2025年自主AI智能体全景图:12款顶级产品深度评测与企业应用指南

8天前
2025年自主AI智能体全景图:12款顶级产品深度评测与企业应用指南

重磅更新!AITOP100平台接入Google Gemini 2.5 Flash Image模型,可免费体验Nano Banana!

2天前
重磅更新!AITOP100平台接入Google Gemini 2.5 Flash Image模型,可免费体验Nano Banana!

Nano Banana AI深度实测教程:Google神秘武器如何重新定义图像编辑标准

5天前
Nano Banana AI深度实测教程:Google神秘武器如何重新定义图像编辑标准

Anthropic推出Claude Code网页版,降低使用门槛并与OpenAI Codex形成竞争

3天前
Anthropic推出Claude Code网页版,降低使用门槛并与OpenAI Codex形成竞争
分享
0
0

欢迎来到AI Top100!我们聚合全球500+款AI智能软件,提供最新资讯、热门课程和活动。我们致力于打造最专业的信息平台,让您轻松了解全球AI领域动态,并为您提供优质服务。

合作伙伴
联系我们
加入AITOP100社群
加入社群
AITOP100商务微信
商务微信
相关链接
服务及隐私政策
网站地图
关于我们
粤ICP备2022124843号-2粤公网安备44030002004505广播电视节目制作经营许可证:(粤)字第00712号Copyright © 华强方特(深圳)动漫有限公司 版权所有