AI音频黑科技：手机也能玩转高质量音频创作！-AITOP100,AI资讯

AI音频创作新玩法：手机也能秒变专业录音棚！

想玩转AI音频创作？现在用手机就能搞定啦！Stability AI和Arm这俩大佬联手，搞了个大新闻，发布了一款叫做“稳定音频开放小型”（Stable Audio Open Small）的文本转音频模型。这玩意儿厉害了，你只需输入文字，它就能在短短7秒左右的时间里，生成一段长达11秒的高质量立体声音频片段，而且专为手机等移动设备优化过，简直不要太方便！

这背后的功臣是加州大学伯克利分校研究人员开发的“对抗相对对比”（Adversarial Relativistic-Contrastive，ARC）技术。当然，在高端硬件上，比如 Nvidia H100 GPU，它的表现更惊艳，75毫秒就能完成44kHz立体声音频的生成，几乎是实时合成，简直是神速！

小身材，大能量！更轻量级的AI音频模型

和去年发布的“老大哥” Stable Audio Open相比，这个精简版只有3.41亿个参数，比之前的11亿参数少了太多，大大降低了对硬件的要求，让它能够在消费级手机上也能流畅运行。要知道，这可是Stability AI和Arm今年3月份宣布合作后的第一个重要成果，可谓是诚意满满！

为了能在手机上跑起来，开发团队可是下了苦功夫，对模型架构进行了彻底的改造，把整个系统拆成了三个核心部分：压缩音频数据的自动编码器、解读文字提示的嵌入模块，以及生成最终音频的扩散模型。这三部分各司其职，协同工作，才能实现如此高效的音频生成。

音效达人看过来！但音乐创作还需努力

Stability AI也坦言，这个模型在生成音效和现场录音方面表现非常出色，但音乐生成方面还有些限制，特别是在处理歌声时，效果可能不太理想。另外，目前它主要还是支持英文提示输入，如果你想用中文来创作，可能还需要等等。

为了保证模型的质量和版权安全，开发团队对训练数据也是非常谨慎。他们使用了Freesound数据库中大约472,000个符合 CC0、CC-BY 或 CC-Sampling+ 许可条款的音频片段，并且还通过一系列自动化检查对训练数据进行了筛选，以避免潜在的版权问题。

总结：AI音频创作，未来可期！

总的来说，“稳定音频开放小型”模型的发布，让我们看到了AI音频创作的巨大潜力。虽然它目前还有一些局限性，但随着技术的不断发展，相信在不久的将来，我们就能在手机上轻松创作出各种高质量的音频作品啦！让我们一起期待 AI 音频创作的未来吧！

更多AI行业最新资讯新闻信息（ai界最新新闻）请关注AI 人工智能网站--AITOP100平台--AI资讯