


SongGeneration
1370
0
0
SongGeneration是腾讯AI Lab正式推出并开源的一款音乐生成大模型。它旨在解决音乐生成领域中普遍存在的音质、音乐性和生成速度等三大难题,通过先进的技术架构和算法,实现高质量音乐作品的自动创作。
工具标签:
直达网站

工具介绍
SongGeneration音乐生成大模型是什么?
SongGeneration是腾讯AI Lab正式推出并开源的一款音乐生成大模型。它旨在解决音乐生成领域中普遍存在的音质、音乐性和生成速度等三大难题,通过先进的技术架构和算法,实现高质量音乐作品的自动创作。该模型不仅在技术上取得了显著突破,还积极响应了“人人皆可创作”的音乐未来愿景,为音乐创作者、游戏开发者和音乐人提供了强大的工具。
主要功能
文本控制:用户只需输入关键词文本,如“开心 流行”“激烈 摇滚”等,SongGeneration即可基于输入文本生成高质量的完整音乐作品。这一功能使得用户能够轻松地根据自己的需求和创意,快速生成符合特定风格和情绪的音乐。
风格跟随:用户可以自行上传10秒以上的参考音频,SongGeneration会自动生成风格一致的全长新曲,覆盖流行、摇滚、中国风、“神曲”等多种流派。生成的歌曲在保持风格一致性的同时,拥有较好的音乐性表现,满足了用户对于特定风格音乐创作的需求。
多轨生成:SongGeneration能够自动生成分离的人声与伴奏轨道,同时保证旋律、结构、节奏与配器的高度匹配。这一功能为音乐创作者提供了更多的创作空间和灵活性,使得他们可以对人声和伴奏进行独立的编辑和调整。
音色跟随:SongGeneration支持基于参考音频的音色跟随功能,生成歌曲具备“音色克隆”级别的人声表现,听感自然、音质出众的同时,兼具卓越的情感表现力。这使得用户能够轻松地模仿特定歌手的音色,创作出具有个性化风格的音乐作品。
技术突破
音质提升:SongGeneration采用了一种基于大型模型的融合架构,并创新性地提出了业内开源模型中最低比特率、最低码率的双通道48kHz高质量音乐编解码器。该编解码器实现了在仅25Hz的极低码率和0.35kbps的超低比特率下能够达到目前最好的音乐重建效果,极大减轻了语言模型的建模负担,为高质量音乐生成提供了坚实基础。
音乐性增强:SongGeneration设计了“混合优先,双轨其次”的多类别token并行预测策略。首先通过一个语言模型对混合token进行预测,指导旋律、节奏、节拍等高级结构信息的整体安排,确保人声与乐器的和谐。在此基础上,通过一个扩展的自回归解码器进一步建模双轨token,以捕捉人声和伴奏轨道各自的细粒度的变化,从而提升音质和音乐性。
生成速度优化:基于LLM-DiT融合架构,SongGeneration在保持生成速度的同时,显著提升了音质表现,生成歌曲的准确度相较部分商业闭源模型表现出相当甚至更优的质量,同时在整体表现、旋律、伴奏、音质与结构等维度也优于现有多数开源模型。
功能创新
灵活的音乐风格调整:用户可以通过描述信息,自定义生成音乐的风格、情绪、乐器等属性。这种灵活的调整方式使得用户能够根据自己的创意和需求,创作出具有独特风格的音乐作品。
简单易用的操作接口:SongGeneration提供了从安装到使用的详细指南,用户可以轻松地在本地或通过Docker容器来运行模型。这种简单易用的操作接口降低了用户的使用门槛,使得更多的人能够参与到音乐创作中来。
丰富的输入格式支持:项目支持多种输入格式,包括JSON Lines格式的歌词文件和可选的参考音频文件,使得音乐生成过程更加灵活。用户可以根据自己的需求选择合适的输入格式,提高创作效率。
技术架构
SongGeneration的训练架构包含数据管线和生成模型两部分。
数据管线
搭建了一套包含了音伴分离、结构分析、歌词识别等模块的音乐数据管线。通过管线可以从原始音频中得到准确的歌词数据,同时获得结构、曲风、音质等标签数据,然后把这些数据送入到生成模型中进行训练。
生成模型
由codec、LM、FM、VAE等部分组成,每个模块都是单独训练的。其中,codec和LM在模型中起着举足轻重的作用。Music Codec模型参数约为1B,用于对音乐进行编解码,能以超低比特率将48kHz的双通道音乐压缩成25Hz的离散表征,并实现高保真的还原。Music LM模型参数约为2B,用于根据用户指令(歌词、文本描述、音频提示)生成完整的歌曲。基于这两个组件,SongGeneration可以高效地根据用户指令生成48kHz采样率的音乐。
模型参数
SongGeneration训练模型总参数量约为3B,经过海量中英文歌曲的预训练,确保了其强大的生成能力。
应用场景
个人音乐创作:为音乐创作者提供一种快速生成旋律和伴奏的方法,提高创作效率。创作者可以通过输入关键词或上传参考音频,快速生成符合自己需求的音乐作品,节省创作时间和精力。
游戏音乐制作:为游戏开发者提供定制化音乐的能力,提升游戏体验。游戏开发者可以根据游戏的场景、情节和氛围,生成与之相匹配的音乐作品,增强游戏的沉浸感和吸引力。
音乐辅助教学:在音乐教学中,利用AI生成的音乐作品作为教学材料,帮助学生理解音乐结构和风格。教师可以通过播放不同风格和情绪的音乐作品,引导学生分析和欣赏音乐,提高音乐素养和审美能力。
艺术探索音乐艺术家可以通过与AI的协作,探索新的音乐风格和创作手法。艺术家可以将自己的创意和想法与AI生成的音乐作品相结合,创造出具有创新性和独特性的音乐作品,推动音乐艺术的发展。
总结
SongGeneration音乐生成大模型的推出,代表了音乐生成技术的进步,也为音乐创作领域带来了新的机遇和挑战。它以其卓越的性能和创新的功能,满足了用户对于高质量音乐创作的需求,降低了音乐创作的门槛,让更多的人能够参与到音乐创作中来。未来,随着技术的不断发展和完善,SongGeneration有望在音乐创作、游戏音乐制作、音乐教育等领域发挥更加重要的作用,推动音乐产业的创新和发展。
评论

全部评论

暂无评论
热门推荐
相关推荐
Fabric 1.0:
VEED Fabric 1.0是VEED.IO 推出的全球首款AI会说话视频模型,它实现了从静态图像到动态叙事的重大跨越,仅需一张图片结合语音输入,就能生成最长1分钟、具备逼真唇形同步和自然面部表情的会话视频。该模型专为“talking head”视频设计,生成速度极快,成本大幅降低,还集成多种生态子曰
2023年7月26日,网易有道正式发布国内首个教育领域垂直大模型——“子曰”。其研发旨在运用人工智能技术,解决教育场景实际问题,为学习者提供更高效、个性化的学习体验。自发布以来,“子曰”不断升级迭代,在教育大模型垂直应用领域取得众多突破。2023年11月,顺利通过双新评估,成为首批通Hugging Face
Hugging Face成立于2016年,作为全球大模型领域举足轻重的开放平台,最初以开发聊天机器人起步,怀揣着让人工智能技术惠及大众的愿景,逐渐转型为专注于开源人工智能,尤其是自然语言处理(NLP)技术,发展至今,它已构建起涵盖模型、工具、数据集以及活跃社区的庞大生态体系。天工开放平台
天工开放平台,作为一家综合性技术平台,致力于提供多样化的服务和产品,以促进技术的创新和应用的发展。该平台涵盖了天工AI搜索、天工3.0大模型、搜索引擎服务,AI写作、AI陪伴以及AI音乐产品等多个领域,充分展示了其在人工智能行业的深远影响。Mistral AI
Mistral AI成立于2023年4月,总部位于法国巴黎,作为欧洲AI领域的领军企业,Mistral致力于通过开源模型与商业化服务,打破美国科技巨头的垄断,为全球开发者提供高性能、可信赖的AI解决方案。CausVid
CausVid是一种基于自回归因果推理架构的AI视频生成模型,专为解决传统模型“生成速度慢、长视频质量差”的痛点而设计。由麻省理工学院计算机科学人工智能实验室(CSAIL)与 Adobe Research 联合研发,这一混合模型可以在几秒钟内生成高质量视频。ChatOne
ChatOne是一款由深圳市奇思妙物科技有限公司开发的AI大模型聚合平台,整合国内外主流AI模型(如GPT-4、文心一言等),提供多场景智能交互服务。其核心定位为“一站式AI生产力工具”,通过自然语言交互实现内容创作、知识管理、客服自动化等功能,旨在降低AI技术使用门槛,提升个人与企业效率。面壁露卡
「面壁露卡 Luca」是面壁智能基于自研千亿参数基座模型 CPM 打造的多模态智能对话助手。
0
0