AI音频创作新玩法:手机也能秒变专业录音棚!
想玩转AI音频创作?现在用手机就能搞定啦!Stability AI和Arm这俩大佬联手,搞了个大新闻,发布了一款叫做“稳定音频开放小型”(Stable Audio Open Small)的文本转音频模型。这玩意儿厉害了,你只需输入文字,它就能在短短7秒左右的时间里,生成一段长达11秒的高质量立体声音频片段,而且专为手机等移动设备优化过,简直不要太方便!
这背后的功臣是加州大学伯克利分校研究人员开发的“对抗相对对比”(Adversarial Relativistic-Contrastive,ARC)技术。当然,在高端硬件上,比如 Nvidia H100 GPU,它的表现更惊艳,75毫秒就能完成44kHz立体声音频的生成,几乎是实时合成,简直是神速!
小身材,大能量!更轻量级的AI音频模型
和去年发布的“老大哥” Stable Audio Open相比,这个精简版只有3.41亿个参数,比之前的11亿参数少了太多,大大降低了对硬件的要求,让它能够在消费级手机上也能流畅运行。要知道,这可是Stability AI和Arm今年3月份宣布合作后的第一个重要成果,可谓是诚意满满!
为了能在手机上跑起来,开发团队可是下了苦功夫,对模型架构进行了彻底的改造,把整个系统拆成了三个核心部分:压缩音频数据的自动编码器、解读文字提示的嵌入模块,以及生成最终音频的扩散模型。这三部分各司其职,协同工作,才能实现如此高效的音频生成。
音效达人看过来!但音乐创作还需努力
Stability AI也坦言,这个模型在生成音效和现场录音方面表现非常出色,但音乐生成方面还有些限制,特别是在处理歌声时,效果可能不太理想。另外,目前它主要还是支持英文提示输入,如果你想用中文来创作,可能还需要等等。
为了保证模型的质量和版权安全,开发团队对训练数据也是非常谨慎。他们使用了Freesound数据库中大约472,000个符合 CC0、CC-BY 或 CC-Sampling+ 许可条款的音频片段,并且还通过一系列自动化检查对训练数据进行了筛选,以避免潜在的版权问题。
总结:AI音频创作,未来可期!
总的来说,“稳定音频开放小型”模型的发布,让我们看到了AI音频创作的巨大潜力。虽然它目前还有一些局限性,但随着技术的不断发展,相信在不久的将来,我们就能在手机上轻松创作出各种高质量的音频作品啦!让我们一起期待 AI 音频创作的未来吧!