AI语音界杀出黑马!韩国大学生DIY神器Dia,目标直指谷歌?
最近AI语音圈儿可是热闹得很,两个来自韩国的大学生,愣是靠着自己的本事,捣鼓出了一个名叫Dia的AI语音模型。听说这玩意儿贼厉害,直接叫板谷歌的NotebookLM!别看人家资历浅,但这俩小伙只用了短短三个月,就搞出了一个开源的语音生成工具,不得不说,后生可畏啊!
Dia凭啥这么牛?揭秘背后的秘密武器!
Dia能这么给力,还得感谢谷歌的TPU Research Cloud项目,这项目免费给研究人员提供TPU AI芯片的使用权。Dia模型本身也有1.6亿个参数,能根据你给的文本生成对话。更绝的是,你还能自定义声音的语调,加点咳嗽、笑声啥的,让声音更逼真!一般来说,参数越多,模型效果就越好。
现在,Dia已经在AI开发平台Hugging Face和GitHub上开放了,大部分配备至少10GB显存的电脑都能跑起来。如果你不给它指定风格,它会随机生成声音,当然,你也可以用它来克隆自己的声音,想想就觉得好玩!
TechCrunch实测:效果真不错!
TechCrunch的记者也试用了一下Dia,发现这玩意儿还真不错,能流畅地生成各种话题的双向对话,语音质量跟市面上其他工具也差不多。而且,Dia的声音克隆功能,记者说这是他用过最简单易用的一个!
潜在风险:安全隐患不容忽视!
不过,Dia在安全保障方面做得还不够,这让人有点担心。你想啊,要是有人用这玩意儿搞虚假信息或者诈骗录音,那可就麻烦了。虽然开发者Nari在项目页面上呼吁大家别干坏事,但也声明不对模型的滥用行为负责。更让人担心的是,Nari还没公布用来训练Dia的数据来源,万一用了有版权的内容,法律问题可就大了。
未来发展:打造社交语音平台!
Nari Labs的创始人Toby Kim说了,他们打算在Dia的基础上,打造一个具有“社交特性”的合成语音平台,以后还会支持更多语言。他们还计划发布Dia的技术报告,进一步扩大Dia的影响力。看来这俩大学生,野心不小啊!