• 首页
  • AI工具集
  • AI资讯
  • AI活动
  • AI社区
  • AI短剧
  • AI创作大赛
  • AI小说
  • AI绘画
    AI视频
    AI音乐
    AI对口型
    AI创意二维码
    AI艺术字
    AI智能抠图
  • AI漫剧创作热门-AI社区
AI 对话

阶跃星辰发布端到端语音大模型Step-Audio2mini:重新定义“听得懂、会思考、能表达”的AI语音交互

阶跃星辰发布端到端语音大模型Step-Audio2mini:重新定义“听得懂、会思考、能表达”的AI语音交互
AI TOP100
2025-09-01 11:40:03

Step-Audio2mini

2025年9月1日,阶跃星辰正式开源发布端到端语音大模型Step-Audio2mini,以“真端到端架构+链式思维推理+工具调用能力”三大核心突破,在语音理解、多语种翻译、情感解析等任务中刷新行业标杆,成为首个全面超越GPT-4o Audio的开源语音模型。这款被用户称为“听得清楚、想得明白、说得自然”的模型,正在重新定义AI语音交互的技术边界。

技术突破:

传统语音模型多采用“ASR(语音识别)+LLM(大语言模型)+TTS(语音合成)”三级架构,存在信息损耗大、时延高、副语言信息丢失等问题。Step-Audio2mini通过真端到端多模态架构,实现从原始音频输入到语音响应输出的直接转换,架构更简洁、时延降低40%,同时能精准捕捉情绪、语调、背景音乐等副语言信号。

更关键的是,模型在端到端语音模型中首次引入链式思维推理(CoT)与强化学习联合优化,让模型能像人类一样“分步骤思考”。例如,当用户提问“这首钢琴曲的作者是谁?”时,模型会先识别音乐片段→匹配数据库→验证信息→生成回答,而非直接输出结果,推理准确率提升25%。

性能碾压:

在多项权威测试中,Step-Audio2mini展现全面优势:

  • 通用音频理解:在MMAU测试集以73.2分登顶开源模型榜首,超越Qwen-Omni(68.5分)、GPT-4o Audio(71.9分);
  • 口语对话能力:在URO Bench基础与专业赛道均获开源模型最高分,复杂场景理解能力提升30%;
  • 多语种翻译:中英互译任务中,CoVoST2得分39.3、CVSS得分29.1,领先GPT-4o Audio(37.8/27.5)及其他开源模型;
  • 语音识别:中文测试集平均字错误率(CER)3.19%,英语词错误率(WER)3.50%,较其他开源模型降低15%以上。

Step-Audio2mini

场景落地:

Step-Audio2mini不仅“听得懂”,更能“会做事”。通过支持语音原生Tool Calling能力,模型可调用网页搜索、计算工具等外部资源,解决传统语音模型易“幻觉”的问题。例如:

  • 用户询问“今天北京天气如何?”,模型会直接联网搜索实时数据并播报;
  • 听到一段陌生音乐,模型可识别旋律→搜索数据库→告知用户“这是《月光奏鸣曲》第三乐章”;
  • 面对哲学问题“人生的意义是什么?”,模型会分步骤推理,最终给出“探索、连接、成长”的极简方法论。

开源生态:

Step-Audio2mini已上线GitHub、Hugging Face等平台,支持开发者快速调用。其真端到端架构降低了模型部署门槛,单张A100显卡即可运行;多语言支持覆盖中文、英语、方言等场景,适配医疗、教育、客服等多领域需求。

项目地址: https://github.com/stepfun-ai/Step-Audio2  (海外网站需要科学上网)

语音AI进入“端到端”新时代

Step-Audio2mini的发布,标志着语音交互从“任务式处理”迈向“类人化思考”。其创新的架构设计、强大的推理能力与工具调用生态,不仅为开发者提供了更高效的研发工具,更让“语音原生”应用(如智能客服、无障碍交互、语音创作)迎来爆发可能。

(本文由AI辅助生成,部分内容人工编辑)


想了解AITOP100平台其它版块的内容,请点击下方超链接查看

AI创作大赛 | AI活动 | AI工具集 | AI资讯专区

AITOP100平台官方交流社群二维码:

AITOP100平台官方交流社群二维码

0
0
文章来源:AI TOP100
免责声明:本文不代表本平台立场,且不构成投资建议,请谨慎对待。
全部评论
暂无评论
相关资讯
  • 腾讯视频孙忠怀:AI长片爆发,未来12个月成关键窗口

  • 北京消协联合8大平台发布承诺书,明确要求AI直播必须“显著标识”

  • 字节跳动Seedream 4.5重磅来袭:多图一致性突破,硬刚Midjourney!

  • AI漫剧的“动物城”还有多远?拆解爆款密码,找准破局之道

  • DeepSeek V3.2 双模型发布:长文本推理成本骤降70%!

热点资讯

每日AI资讯-2025年12月01日

3天前
每日AI资讯-2025年12月01日

每日AI资讯-2025年12月02日

2天前
每日AI资讯-2025年12月02日

每日AI资讯-2025年11月26日

8天前
每日AI资讯-2025年11月26日

每日AI资讯-2025年12月03日

1天前
每日AI资讯-2025年12月03日

来画发布全国首个支持1000秒AI漫剧平台,一键生成动漫短片

3天前
来画发布全国首个支持1000秒AI漫剧平台,一键生成动漫短片
分享
0
0

欢迎来到AI Top100!我们聚合全球500+款AI智能软件,提供最新资讯、热门课程和活动。我们致力于打造最专业的信息平台,让您轻松了解全球AI领域动态,并为您提供优质服务。

合作伙伴
联系我们
加入AITOP100社群
加入社群
AITOP100商务微信
商务微信
相关链接
服务及隐私政策
网站地图
关于我们
粤ICP备2022124843号-2粤公网安备44030002004505广播电视节目制作经营许可证:(粤)字第00712号Copyright © 华强方特(深圳)动漫有限公司 版权所有