腾讯AudioGenie震撼登场，AI音频生成领域迎来“搅局者”-AITOP100,AI资讯

2025年8月17日，音频生成领域又迎来一位“狠角色”——腾讯AI Lab推出的AudioGenie。这款多模态音频生成工具，凭借独特优势，正搅动全球AI音频市场风云。

查看地址：https://audiogenie.github.io/ （国外网站需要科学上网）

腾讯AudioGenie

腾讯AudioGenie的优势：

1.多模态输入，音频输出“全能王”

AudioGenie支持视频、文本、图像等多种模态输入，能生成音效、语音、音乐及混合音频。为影视作品打造沉浸式背景音乐、给虚拟人物配音、给游戏场景添加逼真环境音效，它都不在话下。

而且生成效果自然流畅，还能精准贴合输入内容的上下文，语义理解能力超强。实验显示，在视频到多音频生成、文本到多音频生成等任务中，它都达到甚至超越行业领先水平。

2.无需训练，自我纠错“黑科技”

传统音频生成模型得靠大量训练数据“喂饱”，但AudioGenie不走寻常路。它采用创新的无训练多智能体框架，通过生成团队和监督团队高效协同。

生成团队用细粒度任务分解和自适应专家混合机制，动态选最适合的模型生成音频，保证质量；监督团队负责时空一致性验证，还能自我纠错，确保音频可靠。这一设计摆脱了对大规模配对数据集的依赖，降低了开发成本，还提升了生成效率。

MA-Bench测试，树立行业新标杆

为了评估多模态音频生成能力，腾讯AI Lab推出全球首个针对多模态到多音频生成任务的基准测试集MA-Bench，包含198个带多类型音频注释的视频。

测试结果表明，AudioGenie在9项指标、8项任务中达到或接近最先进水平，在音质、准确性等方面表现优异。用户调研也证实了它在实际应用中的优势，为游戏开发、影视制作等场景提供了有力支持。

市场冲击，挑战国际巨头

AudioGenie的发布，不仅给用户带来高效便捷的音频生成体验，还对现有市场格局发起挑战。结合近期数据，国产AI模型在全球市场崛起，AudioGenie的加入进一步增强了中国AI企业的竞争力。OpenRouter数据显示，Qwen3使用量增长，Claude和Gemini使用量下降。AudioGenie凭借多模态能力和高性价比，有望继续挤压国际巨头市场份额。

腾讯AudioGenie以其强大的多模态音频生成能力和创新的无训练框架，重新定义了AI音频生成标准。未来，它将在媒体制作等领域广泛应用，推动中国AI技术走向世界。

想了解AITOP100平台其它版块的内容，请点击下方超链接查看

AI 创作大赛 | AI活动 | AI工具集 | AI资讯专区

AITOP100平台官方交流社群二维码：