2025年8月17日,音频生成领域又迎来一位“狠角色”——腾讯AI Lab推出的AudioGenie。这款多模态音频生成工具,凭借独特优势,正搅动全球AI音频市场风云。
查看地址:https://audiogenie.github.io/ (国外网站需要科学上网)
腾讯AudioGenie的优势:
1.多模态输入,音频输出“全能王”
AudioGenie支持视频、文本、图像等多种模态输入,能生成音效、语音、音乐及混合音频。为影视作品打造沉浸式背景音乐、给虚拟人物配音、给游戏场景添加逼真环境音效,它都不在话下。
而且生成效果自然流畅,还能精准贴合输入内容的上下文,语义理解能力超强。实验显示,在视频到多音频生成、文本到多音频生成等任务中,它都达到甚至超越行业领先水平。
2.无需训练,自我纠错“黑科技”
传统音频生成模型得靠大量训练数据“喂饱”,但AudioGenie不走寻常路。它采用创新的无训练多智能体框架,通过生成团队和监督团队高效协同。
生成团队用细粒度任务分解和自适应专家混合机制,动态选最适合的模型生成音频,保证质量;监督团队负责时空一致性验证,还能自我纠错,确保音频可靠。这一设计摆脱了对大规模配对数据集的依赖,降低了开发成本,还提升了生成效率。
MA-Bench测试,树立行业新标杆
为了评估多模态音频生成能力,腾讯AI Lab推出全球首个针对多模态到多音频生成任务的基准测试集MA-Bench,包含198个带多类型音频注释的视频。
测试结果表明,AudioGenie在9项指标、8项任务中达到或接近最先进水平,在音质、准确性等方面表现优异。用户调研也证实了它在实际应用中的优势,为游戏开发、影视制作等场景提供了有力支持。
市场冲击,挑战国际巨头
AudioGenie的发布,不仅给用户带来高效便捷的音频生成体验,还对现有市场格局发起挑战。结合近期数据,国产AI模型在全球市场崛起,AudioGenie的加入进一步增强了中国AI企业的竞争力。OpenRouter数据显示,Qwen3使用量增长,Claude和Gemini使用量下降。AudioGenie凭借多模态能力和高性价比,有望继续挤压国际巨头市场份额。
腾讯AudioGenie以其强大的多模态音频生成能力和创新的无训练框架,重新定义了AI音频生成标准。未来,它将在媒体制作等领域广泛应用,推动中国AI技术走向世界。
想了解AITOP100平台其它版块的内容,请点击下方超链接查看
AI创作大赛 | AI活动 | AI工具集 | AI资讯专区
AITOP100平台官方交流社群二维码: