SongGeneration
2338
0
0
SongGeneration是腾讯AI Lab正式推出并开源的一款音乐生成大模型。它旨在解决音乐生成领域中普遍存在的音质、音乐性和生成速度等三大难题,通过先进的技术架构和算法,实现高质量音乐作品的自动创作。
工具标签:
直达网站
工具介绍

SongGeneration音乐生成大模型是什么?
SongGeneration是腾讯AI Lab正式推出并开源的一款音乐生成大模型。它旨在解决音乐生成领域中普遍存在的音质、音乐性和生成速度等三大难题,通过先进的技术架构和算法,实现高质量音乐作品的自动创作。该模型不仅在技术上取得了显著突破,还积极响应了“人人皆可创作”的音乐未来愿景,为音乐创作者、游戏开发者和音乐人提供了强大的工具。
主要功能
文本控制:用户只需输入关键词文本,如“开心 流行”“激烈 摇滚”等,SongGeneration即可基于输入文本生成高质量的完整音乐作品。这一功能使得用户能够轻松地根据自己的需求和创意,快速生成符合特定风格和情绪的音乐。
风格跟随:用户可以自行上传10秒以上的参考音频,SongGeneration会自动生成风格一致的全长新曲,覆盖流行、摇滚、中国风、“神曲”等多种流派。生成的歌曲在保持风格一致性的同时,拥有较好的音乐性表现,满足了用户对于特定风格音乐创作的需求。
多轨生成:SongGeneration能够自动生成分离的人声与伴奏轨道,同时保证旋律、结构、节奏与配器的高度匹配。这一功能为音乐创作者提供了更多的创作空间和灵活性,使得他们可以对人声和伴奏进行独立的编辑和调整。
音色跟随:SongGeneration支持基于参考音频的音色跟随功能,生成歌曲具备“音色克隆”级别的人声表现,听感自然、音质出众的同时,兼具卓越的情感表现力。这使得用户能够轻松地模仿特定歌手的音色,创作出具有个性化风格的音乐作品。
技术突破
音质提升:SongGeneration采用了一种基于大型模型的融合架构,并创新性地提出了业内开源模型中最低比特率、最低码率的双通道48kHz高质量音乐编解码器。该编解码器实现了在仅25Hz的极低码率和0.35kbps的超低比特率下能够达到目前最好的音乐重建效果,极大减轻了语言模型的建模负担,为高质量音乐生成提供了坚实基础。
音乐性增强:SongGeneration设计了“混合优先,双轨其次”的多类别token并行预测策略。首先通过一个语言模型对混合token进行预测,指导旋律、节奏、节拍等高级结构信息的整体安排,确保人声与乐器的和谐。在此基础上,通过一个扩展的自回归解码器进一步建模双轨token,以捕捉人声和伴奏轨道各自的细粒度的变化,从而提升音质和音乐性。
生成速度优化:基于LLM-DiT融合架构,SongGeneration在保持生成速度的同时,显著提升了音质表现,生成歌曲的准确度相较部分商业闭源模型表现出相当甚至更优的质量,同时在整体表现、旋律、伴奏、音质与结构等维度也优于现有多数开源模型。

功能创新
灵活的音乐风格调整:用户可以通过描述信息,自定义生成音乐的风格、情绪、乐器等属性。这种灵活的调整方式使得用户能够根据自己的创意和需求,创作出具有独特风格的音乐作品。
简单易用的操作接口:SongGeneration提供了从安装到使用的详细指南,用户可以轻松地在本地或通过Docker容器来运行模型。这种简单易用的操作接口降低了用户的使用门槛,使得更多的人能够参与到音乐创作中来。
丰富的输入格式支持:项目支持多种输入格式,包括JSON Lines格式的歌词文件和可选的参考音频文件,使得音乐生成过程更加灵活。用户可以根据自己的需求选择合适的输入格式,提高创作效率。
技术架构
SongGeneration的训练架构包含数据管线和生成模型两部分。
数据管线
搭建了一套包含了音伴分离、结构分析、歌词识别等模块的音乐数据管线。通过管线可以从原始音频中得到准确的歌词数据,同时获得结构、曲风、音质等标签数据,然后把这些数据送入到生成模型中进行训练。
生成模型
由codec、LM、FM、VAE等部分组成,每个模块都是单独训练的。其中,codec和LM在模型中起着举足轻重的作用。Music Codec模型参数约为1B,用于对音乐进行编解码,能以超低比特率将48kHz的双通道音乐压缩成25Hz的离散表征,并实现高保真的还原。Music LM模型参数约为2B,用于根据用户指令(歌词、文本描述、音频提示)生成完整的歌曲。基于这两个组件,SongGeneration可以高效地根据用户指令生成48kHz采样率的音乐。
模型参数
SongGeneration训练模型总参数量约为3B,经过海量中英文歌曲的预训练,确保了其强大的生成能力。
应用场景
个人音乐创作:为音乐创作者提供一种快速生成旋律和伴奏的方法,提高创作效率。创作者可以通过输入关键词或上传参考音频,快速生成符合自己需求的音乐作品,节省创作时间和精力。
游戏音乐制作:为游戏开发者提供定制化音乐的能力,提升游戏体验。游戏开发者可以根据游戏的场景、情节和氛围,生成与之相匹配的音乐作品,增强游戏的沉浸感和吸引力。
音乐辅助教学:在音乐教学中,利用AI生成的音乐作品作为教学材料,帮助学生理解音乐结构和风格。教师可以通过播放不同风格和情绪的音乐作品,引导学生分析和欣赏音乐,提高音乐素养和审美能力。
艺术探索音乐艺术家可以通过与AI的协作,探索新的音乐风格和创作手法。艺术家可以将自己的创意和想法与AI生成的音乐作品相结合,创造出具有创新性和独特性的音乐作品,推动音乐艺术的发展。
总结
SongGeneration音乐生成大模型的推出,代表了音乐生成技术的进步,也为音乐创作领域带来了新的机遇和挑战。它以其卓越的性能和创新的功能,满足了用户对于高质量音乐创作的需求,降低了音乐创作的门槛,让更多的人能够参与到音乐创作中来。未来,随着技术的不断发展和完善,SongGeneration有望在音乐创作、游戏音乐制作、音乐教育等领域发挥更加重要的作用,推动音乐产业的创新和发展。
评论
全部评论

暂无评论
热门推荐
相关推荐

VACE
阿里通义Wan团队推出的视频生成和编辑模型VACE,是一款集多功能于一体的创新工具,它支持按条件生成视频、精确控制物体运动轨迹、一键替换视频主体、风格迁移、画面扩展及静态画面动态化等,极大地提升了视频创作的效率和趣味性,为视频内容创作领域带来了全新的可能性。
Mistral AI
Mistral AI成立于2023年4月,总部位于法国巴黎,作为欧洲AI领域的领军企业,Mistral致力于通过开源模型与商业化服务,打破美国科技巨头的垄断,为全球开发者提供高性能、可信赖的AI解决方案。
Marey Realism
Marey Realism由洛杉矶初创公司Moonvalley与AI动画工作室Asteria联合开发,其命名致敬电影运动分析先驱Étienne-Jules Marey。作为全球首款完全基于授权数据训练的企业级AI视频模型,Marey的核心定位是“辅助而非取代专业创作者”,
面壁露卡
「面壁露卡 Luca」是面壁智能基于自研千亿参数基座模型 CPM 打造的多模态智能对话助手。
Voyager
HunyuanWorld-Voyager是腾讯混元团队于2025年9月2日正式推出全球首个支持原生3D重建的超长漫游世界模型。该模型以“空间一致性”与“长距离探索”为核心突破,在斯坦福大学李飞飞团队主导的WorldScore基准测试中以77.62分的综合成绩登顶榜首,超越谷歌Genie3等开源模型
QwQ-32B
QwQ-32B是阿里巴巴旗下的Qwen团队最新推出的一款开源大型语言模型(LLM)。这款模型拥有320亿参数,旨在通过强化学习(RL)提升在复杂问题解决任务上的性能。QwQ-32B继承了前代模型在数学和编码任务中的出色表现,并通过进一步的技术优化和创新,成为了推理AI领域的重要竞争者。
ACE-Step(音跃)
ACE-Step(音跃)是阶跃星辰与ACE Studio于2025年5月7日联合发布并开源的音乐大模型,它是一款以生成式AI技术为核心的音乐创作工具,参数量为3.5B,支持包括LoRA和ControlNet在内的多种微调方式,可灵活适配音频编辑、人声合成、伴奏生成、声线克隆、风格迁移等多种下游任务
AniSora
Bilibili(B站)的开源动漫视频生成模型AniSora是专为动漫视频生成设计的综合系统,该模型具备海量数据支持、时空掩码技术、专业评估体系三大核心优势,可一键生成多种动漫风格的视频内容,显著降低创作门槛并提升制作效率。
0
0






