一、音频大模型闪亮登场
喜马拉雅音频大模型在上海网信办发布的最新一批上海市生成式大模型备案通过名单中,与米哈游、阅文集团的筑梦岛等文本大模型共同通过备案,成为全国首个通过备案的音频生成类大模型。
该音频大模型是全球首个第四代多情感演绎、超自然表达的音频生成大模型。由珠峰 AI 团队基于自研文本音频联合建模的 LLM 框架打造,在同一空间向量表征下实现音频与文本的联合建模训练。通过这种训练,可实现 15 秒音色克隆能力和声音转换能力;能生成超拟人、多情感、对齐人类偏好的语音;还具备高可控风格和副语言能力等。
研发团队在评估中发现,在长音频内容如有声小说的场景下,该音频大模型在角色演绎风格的可控性、音素表现的稳定性、语流韵律停顿等的自然度上显著高于国内外第三代音频生成模型。例如,最近爆火的有声书《我的阿勒泰》就是由音频大模型生成,充分展现了其强大的音频生成能力。
喜马拉雅音频大模型的出现,标志着音频生成技术迈向了新的高度。它不仅为音频行业带来了创新的动力,也为用户带来了更加丰富、生动的音频体验。随着技术的不断发展和完善,相信喜马拉雅音频大模型将在更多领域发挥重要作用。
二、强大功能与应用场景
(一)技术突破显实力
喜马拉雅音频大模型基于自研框架实现音频与文本联合建模训练,这一突破为其赋予了众多强大功能。在音色克隆方面,模型可实现 5 秒内 “极速克隆” 声音,10 秒内快速生成定制音频,不仅能克隆出具有 90% 相似度的基本音色,还包含韵律、腔调、口吻等 “语流” 信息。情感语音生成方面,超拟人、多情感、对齐人类偏好的语音生成能力,让音频内容更具感染力。例如,在有声书制作中,能根据不同的角色和情节,生成富有情感的语音,使听众仿佛身临其境。语种互译功能则打破了语言的障碍,让音频内容能够传播到更广泛的地区。同时,模型还支持丰富场景下的音色实时转换,为声音赋予创造性的 “变声” 能力。
(二)广泛应用展魅力
喜马拉雅音频大模型在有声书、Chat 对话式交互等业务场景广泛使用。在有声书制作方面,大大提高了制作效率,创作者只需输入文字,AI 便能自动生成各类音色的声频。Chat 对话式交互中,为用户提供更加自然流畅的交互体验。在广告领域,通过 AIGC 原生声音流,实现 “广告即内容”,如喜马拉雅联合贵州茅台推出 “单田芳 AI 声音重现” 春运公益活动,联合慕思共同打造的 “邀李白共启 AI 穿越之旅” 活动等。这些创新应用不仅为广告营销带来了新的思路,也提升了品牌的影响力。此外,该模型在短视频创作、数字人配音、人机交互对话、名人 IP 复刻等领域也有着巨大的潜在价值,有效解决商业场景中的沟通需求痛点。
三、云栖大会惊艳亮相
(一)吸引目光引关注
2024 云栖大会以 “云启智跃,产业蝶变” 为主题,汇聚众多前沿技术企业。喜马拉雅音频大模型在 “人工智能 +” 主题馆亮相,瞬间吸引众多市民驻足围观体验。作为在线音频头部企业,喜马拉雅围绕音频建立了丰富多元的 “声音宇宙”。截至 2023 年 12 月底,喜马拉雅已累积包含 459 个品类的 4.88 亿条音频,总内容时长超过 36 亿分钟,能满足用户从 -1 岁到 100 岁不同年龄阶段的需求。喜马拉雅从成立之初就重视技术投入,尤其是布局 AI,将其作为平台发展的主要驱动力。在此次大会上,喜马拉雅展示了 “珠峰 AI 音频多模态大模型” 的强大功能、应用场景及商业化案例。该模型是喜马拉雅自主研发的 AI 音频生成大模型,依托超百万小时的自有版权音频数据进行深度学习与训练,具备情感输出、自然表达、语种互译、极速克隆等技术能力,在音频生成领域实现多维度突破,正广泛应用于有声书等领域,未来将不断推动音频大模型行业的创新与发展。
(二)赋能创作促发展
喜马拉雅音频大模型为创作者提供了高品质的服务。用户可以在 “珠峰 AI 数智人平台互动体验区” 极速体验全领域多品类 535 种 AI 音色库生成全品类 AIGC 音频内容。仅需 15 秒,就能快速定制真人数智人形象,让创作者的声音更具特色。而令人惊叹的是,10 秒声音极速克隆功能,不单能克隆音色,更包含韵律、腔调、口吻等 “语流” 信息,让创作者轻松实现声音的个性化定制。这些功能让创作者深刻感受到 AI 高效便捷地赋能内容创作。数据显示,2023 年喜马拉雅全场景平均月活跃用户达 3.03 亿,平台 AIGC 内容达 2.4 亿分钟,占音频内容的 6.6%,移动端平均月活跃用户的 AIGC 渗透率已达 14.8%。这表明,AI 正在深刻地影响着内容创作行业,为创作者带来更多可能性。喜马拉雅音频大模型不仅提升了创作效率,还为创作者带来了新的盈利机会。随着 AI 技术的不断演进,内容创作将更加智能化与个性化,创作者只需提供基本的文本框架或 idea,AI 就能快速生成符合要求的音频作品,极大降低了创作门槛。
四、数据印证未来可期
喜马拉雅音频大模型的成功,不仅仅体现在其先进的技术和广泛的应用场景上,更有大量的数据印证着它在内容创作领域的巨大推动力以及在 AI 时代的竞争优势。
从用户数据来看,2023 年喜马拉雅全场景平均月活跃用户达 3.03 亿,这一庞大的用户群体为音频大模型的发展提供了广阔的市场空间。截至 2023 年 12 月,喜马拉雅平台 AIGC 内容达 2.4 亿分钟,占其音频内容的 6.6%,且移动端平均月活跃用户的 AIGC 渗透率已达 14.8%。这些数据表明,越来越多的用户开始接受并利用 AI 生成的音频内容,AIGC 在喜马拉雅平台上的影响力正在不断扩大。
在内容创作方面,喜马拉雅音频大模型为创作者带来了极大的便利。它可以根据创作者提供的文本框架或 idea,快速生成符合要求的音频作品,极大降低了创作门槛。例如,在有声书制作领域,AI 能够自动生成各类音色的声频,大大提高了制作效率。同时,模型的情感输出、自然表达等功能,使音频内容更具感染力,能够更好地吸引听众。
从竞争优势来看,喜马拉雅拥有中国最全面的音频内容生态。据灼识咨询资料显示,截至 2023 年 12 月,喜马拉雅拥有约 4.9 亿条音频内容,总内容时长为 36 亿分钟。这一庞大的音频内容库为音频大模型的训练提供了丰富的语料,使其在 AI 时代能够轻松获取海量且多样化的在线音频内容以不断演进其 AI 能力。
此外,喜马拉雅音频大模型具备 “产模一体生态系统、持续进化的生态飞轮” 的模型优势,已广泛应用于内容创作、数智分身、语音交互等场景,并已实现商业化。在广告领域,通过 AIGC 原生声音流,实现 “广告即内容” 的创新应用,为品牌营销带来了新的思路和方法。
随着下一代技术、AI 及大数据能力的持续提升,喜马拉雅音频大模型将进一步打开声音的想象力,持续用声音分享人类智慧,用声音服务美好生活。可以预见,在未来的发展中,喜马拉雅音频大模型将在内容创作领域发挥更加重要的作用,为用户带来更加丰富、生动的音频体验。
五、机遇挑战并存前行
(一)机遇满满展前景
AI 赋能音频内容生态带来了诸多机遇。首先,内容生产力大幅提升,AIGC 可以帮助内容生产者更高效地创作内容,满足用户日益增长的内容需求。例如,喜马拉雅音频大模型的出现,让创作者只需输入文字,AI 便能快速生成不同风格、不同音色的音频内容,极大地提高了创作效率。其次,内容形式更加丰富多样,AIGC 可以生成文本、图像、音频、视频等多种形式的内容,为用户带来更加丰富的视听体验。喜马拉雅音频大模型能够实现语种互译、情感输出等功能,为音频内容增添了更多的可能性。再者,内容分发更加精准高效,AIGC 可以根据用户的兴趣爱好和行为习惯,推荐更加精准的内容,提高用户的满意度和粘性。
(二)挑战重重需应对
然而,AI 赋能音频内容生态也带来了一些挑战。在版权问题方面,目前尚无明确的法律法规对 AI 生成的音频内容版权归属进行规范。例如,当 AI 模仿名家大师的声音生成音频作品时,版权归属如何界定成为了一个难题。为避免 AI 技术被用于侵犯版权,需要完善相关法律法规,明确版权归属问题。在内容质量方面,部分 AIGC 生成的内容质量不高,缺乏原创性和深度。喜马拉雅音频大模型虽然在技术上不断突破,但也需要加强对生成内容的质量把控,提升内容的原创性和价值。在伦理道德风险方面,AIGC 可能被用于生成虚假信息、恶意内容等,引发伦理道德问题。这就需要建立健全行业规范,引导 AIGC 技术健康发展,确保音频内容的真实性和客观性。
(三)就业冲击引思考
AI 技术的应用也给音频内容创作者带来了就业冲击。一方面,有人担心 AI 技术的发展会导致音频内容创作者失业。然而,正如喜马拉雅 CEO 所说:“AI 不是来替代人类的,而是来帮助人类更好地进行创作的。”AI 的优势在于其强大的数据处理能力和高效的生产效率,而人类的优势则在于其独特的创造力和情感共鸣能力。人机协同将成为内容创作的主流模式,人类创作者可以更多地扮演 “导演” 的角色,利用 AI 技术将自己的创意和想法转化为现实。另一方面,为了帮助传统音频内容创作者转型升级,平台可以提供培训和支持,让他们掌握 AI 技术的应用方法,提升自己的竞争力。
(四)未来展望共前行
面对机遇与挑战,我们需要理性看待 AI 技术的发展,积极探索 AI 技术与音频内容创作的融合发展之路。未来,随着 AI 技术的不断进步和应用场景的不断拓展,音频内容创作将更加便捷、高效、智能,音频内容生态也将更加繁荣多样。喜马拉雅作为音频行业的领军者,将继续在 AI 赋能内容创作的道路上持续探索,为用户带来更加丰富、优质的音频内容体验。我们有理由相信,在 AI 技术的赋能下,音频内容创作将迎来更加美好的未来。