重磅!手机也能玩AI音频了?
最近,AI圈儿又热闹了!Stability AI,就是那个搞Stable Diffusion的,联合芯片大佬Arm,一起推出了一个超轻量级的文字转音频模型——Stable Audio Open Small。这名字有点长,咱们就叫它“小小音频”吧!
这“小小音频”厉害在哪儿呢?它最大的特点就是“轻”!只有3.41亿个参数,啥概念?就是说它能在你的智能手机上直接运行,不用连网,不用跑云端,随时随地想生成音频就生成音频!
技术牛在哪儿?手机跑得飞起!
得益于和Arm的深度合作,“小小音频”用了KleidiAI库做了优化,速度快到惊人!在手机上,不到8秒就能生成一段11秒的音频。要知道,它的大哥Stable Audio Open可是有11亿参数,相比之下,“小小音频”简直就是个小火箭!
而且,它还用了对抗式后训练(ARC)技术,省去了传统的蒸馏啥的,进一步提升了速度。在高端的NVIDIA H100GPU上,生成时间甚至能缩短到75毫秒!这速度,简直没谁了!不管你是想设计个音效,还是想创作个音乐片段,“小小音频”都能帮你搞定!
专攻音效!短音频创作神器!
“小小音频”最擅长的就是生成短音频样本,最长11秒。像音效、鼓点、乐器片段、环境音这些,都是它的强项。你只需要输入简单的英文描述,比如“海浪拍打海岸的声音”,或者“128BPM电子鼓循环”,就能快速生成44.1kHz的立体声音频。生成的音效和节奏片段细节丰富,特别适合音效设计师、音乐制作人,还有内容创作者们使用。
当然,“小小音频”也有局限性。它目前只支持英文提示,而且不太擅长生成逼真的歌声或者完整的歌曲。另外,因为训练数据主要以西方音乐为主,所以处理非西方音乐风格的时候可能效果会差一些。大家使用的时候可以根据需求调整提示,争取达到最好的效果。
开源!版权也考虑到了!
这次,Stability AI做的很地道, “小小音频”的训练数据全部来自Free Music Archive和Freesound的免版税音频,完全不用担心版权问题。这个做法给其他AI公司做了一个好榜样,告诉大家搞AI也要讲道德!
作为开源项目,“小小音频”的模型权重已经在Hugging Face和GitHub上公开了,大家可以免费下载。而且,它还采用了Stability AI社区许可,个人用户、研究人员,以及年收入低于100万美元的小企业都可以免费使用。只有那些大型企业才需要申请企业许可。这个宽松的许可策略,大大降低了技术门槛,让更多的人可以参与到AI音频生成的应用中来。
意义重大!移动AI要起飞!
“小小音频”的发布,意味着AI音频生成技术正在向移动设备迈进。和那些依赖云端处理的竞品不一样,它可以在离线状态下运行,特别适合在移动场景下使用。可以预见,这款模型将推动智能手机、平板电脑等设备的智能化升级,为虚拟主播、游戏音效、教育内容创作等领域带来新的机会。
Stability AI和Arm的合作,也为端侧AI的发展提供了一个很好的例子。通过优化模型以适应低功耗硬件,“小小音频”不仅降低了创作成本,也让更多的人可以体验到AI音频生成的乐趣。这种普惠化的趋势,有望重塑音频创作生态,让更多普通用户参与到专业级的音效设计中来。
国产AI,加油!
总的来说,“小小音频”的发布,展现了Stability AI在音频生成领域的实力。同时也提醒我们,国内的AI企业也要加快在端侧AI和开源生态上的布局,才能在全球竞争中占据优势!