2025年9月11日,Stability AI在音频生成赛道上再出大招,在著名社交媒体平台“X”的官方账号上面发推文,宣布推出了最新音频生成模型Stable Audio2.5,这一举措无疑为专业音效制作带来了全新的高效解决方案,引发了行业内外的广泛关注。
Stable Audio2.5此次升级带来的亮点有哪些?
复杂生成能力:
Stable Audio2.5此次升级,最大的亮点当属其更为复杂的生成能力。以往,音频生成模型往往只能创作简单的旋律片段,而Stable Audio2.5却能创作出完整的多段音乐作品,涵盖引子、发展和尾声,就像一位专业的作曲家,能够完整地讲述一个音乐故事。
情感提示响应精准:Stability AI表示,新的模型能够更准确地响应情感提示。比如,当你输入“振奋人心”这样的提示时,它生成的音乐就像一针强心剂,能让听众瞬间充满活力;要是提示“舒缓宁静”,那生成的音乐就如同潺潺溪流,能让人放松身心。
特定风格理解出色:该模型对特定音乐风格的提示理解也十分到位。像“丰富的合成器声”这种提示,它就能生成充满科技感和未来感的音乐,仿佛将听众带入了一个奇幻的电子世界。而且,用户只需几秒钟就能生成最长三分钟的音乐曲目,在Nvidia H100GPU上,处理时间甚至低于两秒,这速度简直快得惊人。
创新后期训练:
Stable Audio2.5之所以能有如此惊人的速度,得益于其采用的后期训练方法——对抗相对 - 对比(Adversarial Relativistic-Contrastive,简称ARC)。这一技术是公司研究团队精心开发的,就像给模型装上了一个超级加速器。
值得一提的是,Stability AI在今年五月还推出了一款适用于智能手机的紧凑版本——Stable Audio Open Small模型,同样使用了ARC方法。这个模型虽然小巧,但功能强大,能够在移动设备上生成最多11秒的立体声音频,而且仅需七秒钟,真正实现了随时随地生成音频的便捷体验。
音频修补(audio inpainting):
除了强大的生成能力,Stable Audio2.5在功能方面也有重要更新,其中最引人注目的就是音频修补(audio inpainting)功能。
音频修补:创意无限延伸:用户可以上传自己的音频文件,然后选择起点,让AI生成后续内容,轻松完成或扩展现有的录音。比如,你有一段未完成的音乐作品,通过这个功能,AI就能帮你续写,让你的创意得到无限延伸。
文字提示生成音乐:简单又高效:用户还可以通过文字提示生成音乐,就像给模型下达一个创作指令,它就能按照你的要求生成相应的音乐。
不过,需要注意的是,上传的文件必须是无版权的,Stability AI通过先进的识别系统来确保版权合规。与早期版本一样,Stable Audio2.5也是在一个已授权的数据集上进行训练的,被认为是商业安全的,让用户使用起来更加放心。
应用前景:
Stability AI对Stable Audio2.5寄予了厚望,希望该技术能广泛应用于广告、零售、品牌音效等多个领域。为了实现这一目标,它与WPP旗下的音效品牌代理机构Amp展开合作,为大型客户提供一致的音频识别服务。
定制专属音频标识:Stability AI的音频团队还可以根据公司的音效库调整模型,为公司打造独特的音频标识。就像每个品牌都有自己的标志一样,独特的音频标识也能让品牌在众多竞争对手中脱颖而出。
全球客户开放服务:Stable Audio2.5将通过WPP Open平台面向WPP的全球客户开放,这意味着更多的企业和创意团队将有机会使用到这一先进的音频生成技术。
拓展合作网络:
自2024年4月推出Stable Audio2以来,Stability AI就开始在音频领域积极拓展合作伙伴网络,努力增强自身财务实力。今年3月,WPP集团对Stability AI进行了不公开的投资,这无疑是对其技术实力和发展前景的认可。与此同时,Meta也在加速推进其音频研究,整个音频生成领域呈现出蓬勃发展的态势。
Stable Audio2.5的推出,是Stability AI在音频生成领域的一次重大突破。它凭借复杂的生成能力、创新的技术方法、实用的功能更新以及广泛的应用前景,为专业音效制作带来了新的机遇和挑战。
相信在未来,随着技术的不断进步和完善,Stable Audio2.5将在更多领域发挥重要作用,为我们带来更多精彩的音乐体验。
体验地址:Stability AI网页版官网入口 (海外网站需要科学上网)
想了解AITOP100平台其它版块的内容,请点击下方超链接查看
AI创作大赛 | AI活动 | AI工具集 | AI资讯专区
AITOP100平台官方交流社群二维码: