CLaMP 3：AI音乐检索新突破，跨模态跨语言精准匹配-AITOP100,AI资讯

AI“听”图识曲？CLaMP 3引领音乐检索新潮流

想象一下，你给AI看一张海上航行的海盗船图片，它瞬间就能识别出《加勒比海盗》的经典配乐。这并非科幻，而是音乐信息检索（MIR）领域正在实现的突破。

然而，音乐信息检索一直面临着多模态数据处理的复杂性和多语言文本理解的挑战。传统的MIR系统往往只能处理特定类型的数据组合，例如文本与音频，或者文本与乐谱，限制了其跨模态理解的能力。此外，现有的数据集大多以英语为主，缺乏对其他语言的覆盖，导致MIR系统在非英语环境下的表现不佳。

为了解决这些问题，来自中央音乐学院、清华大学、香港科技大学、上海纽约大学等机构的研究者联合推出了 CLaMP 3（Contrastive Language-Music Pre-training）——一个跨模态、跨语言的统一音乐信息检索框架。

CLaMP 3 采用对比学习方法，首次实现了乐谱、演奏信号、音频录音等音乐模态与多语言文本的联合对齐，使得不同模态之间可以通过文本桥接进行高效检索。其多语言文本编码器能够适应前所未见的语言，在跨语言检索任务中展现出卓越的性能。

CLaMP 3 基于检索增强生成（Retrieval-Augmented Generation, RAG）策略，构建了规模高达 2.31M 的音乐-文本对的 M4-RAG 数据集，并结合详细的音乐元数据，覆盖了 27 种语言、194 个国家的音乐文化。此外，研究团队还推出了 WikiMT-X，一个包含乐谱、音频和多样化文本描述的 1000 个样本的基准数据集，旨在推动跨模态音乐理解的研究。

实验结果表明，CLaMP 3 在多个 MIR 任务上都取得了当前最佳性能，不仅大幅超越了现有的基线模型，还在跨模态、跨语言的检索任务中展现出卓越的泛化能力。

CLaMP 3展现出强大的跨模态和跨语言泛化能力。监督对齐（实线箭头）连接成对的模态，而涌现对齐（虚线箭头）则弥合未对齐的模态。多语言文本编码器使得在对齐过程中未见（灰色气泡）的语言中也能进行检索。

图 1：CLaMP 3 展现出强大的跨模态和跨语言泛化能力。监督对齐（实线箭头）连接成对的模态，而涌现对齐（虚线箭头）则弥合未对齐的模态。多语言文本编码器使得在对齐过程中未见（灰色气泡）的语言中也能进行检索。

MIR 的未来：真正的跨模态、跨语言对齐

音乐是无国界的语言，但 MIR 的发展仍然面临着以下关键挑战：

多模态数据对齐难度大： 乐谱、MIDI（演奏信号）、音频等数据具有不同的表示方式，传统方法难以统一处理。
多语言音乐信息检索受限： 现有数据集主要以英语为主，缺乏对其他语言的覆盖，导致 MIR 模型难以泛化到全球音乐语境。
缺乏高质量的多模态-多语言数据： 音乐文本数据多为简短的标签，缺乏详细的长文本描述，限制了 MIR 系统的理解能力。

为了解决上述问题，CLaMP 3 构建了一个通用的跨模态-跨语言检索框架，通过对比学习构建共享表示空间，使得不同模态的音乐数据可以在无配对训练数据的情况下进行检索。

技术解析：对比学习 + 检索增强生成，构建统一音乐表示空间

CLaMP 3 采用对比学习（Contrastive Learning）作为核心优化目标，通过多阶段训练策略对齐不同模态，并利用检索增强生成（RAG）扩展高质量音乐-文本数据。

CLaMP 3采用对比学习来对齐不同模态的特征。乐谱和演奏信号被分割为单元（小节或MIDI消息），并由符号音乐编码器处理，而音频则被分割为5秒片段，并通过音频特征提取器和音频音乐编码器处理。符号和音频表示均与来自多语言文本编码器的文本表示对齐。

图 2：CLaMP 3 采用对比学习来对齐不同模态的特征。乐谱和演奏信号被分割为单元（小节或 MIDI 消息），并由符号音乐编码器处理，而音频则被分割为 5 秒片段，并通过音频特征提取器和音频音乐编码器处理。符号和音频表示均与来自多语言文本编码器的文本表示对齐。

训练策略：多阶段模态对齐

CLaMP 3 的训练策略借鉴了 ImageBind 的思想，采用四阶段跨模态对齐：

文本与乐谱对齐：训练文本编码器与乐谱编码器。
文本与音频对齐：冻结文本编码器，训练音频编码器。
优化文本对齐：解冻文本编码器，细调文本-音频对齐。
修正跨模态漂移：重新对齐文本-乐谱，以减少前一阶段的对齐偏差。

这一策略确保了所有模态最终映射到统一的表示空间，避免模态漂移问题。

核心组件：多模态 Transformer 编码器

CLaMP 3 由多个基于 Transformer 的编码器组成，每个编码器针对不同模态进行处理，以确保跨模态对齐和信息融合。

多语言文本编码器

CLaMP 3 的文本编码器基于 XLM-R-base，一个预训练于 2.5TB CommonCrawl 数据的模型，涵盖 100 种语言。该编码器具有 12 层 Transformer，隐藏维度为 768，具备强大的跨语言泛化能力，可用于处理未见语言的数据。

符号音乐编码器

CLaMP 3 采用 M3 作为符号音乐编码器，它是一种自监督学习模型，可处理多轨 ABC 记谱格式和 MIDI。

输入格式：ABC 以小节（bar）为单位分割，MIDI 以消息（message）为单位分割。

模型结构：12 层 Transformer，隐藏层大小 768。

处理能力：支持 512 个片段（patches）或 32,768 个字符，可捕捉复杂的符号音乐模式。

音频音乐编码器

CLaMP 3 的音频编码器是一个 12 层 Transformer，隐藏维度同样为 768，专为音乐音频处理而训练。

特征提取：利用 MERT-v1-95M 预训练特征，MERT 作为冻结的音频特征提取器。

输入单位：将音频分割为 5 秒片段，并计算所有 MERT 层的时间步均值，生成单个嵌入向量。

处理能力：最多支持 128 个嵌入向量（对应 640 秒音频），能够建模长时音乐特征。

统一表示空间

所有编码器的输出都经过线性层和平均池化（average pooling）处理，最终生成全局语义特征，确保不同模态数据在共享表示空间中对齐。

数据集：M4-RAG

CLaMP 3 的训练依赖于大规模的高质量多模态多语言音乐数据集 M4-RAG。

数据来源

CLaMP 3 结合符号音乐数据和音频音乐数据以构建多模态学习基础：

符号音乐数据：

WebMusicText（WebMT）：1.4M ABC 记谱文件。

Million MIDI Dataset（MMD）：1.5M MIDI 文件。

数据转换：MMD 转换为 ABC，WebMT 转换为 MIDI，最终形成 3M 统一格式的符号音乐数据。

音频音乐数据：

从网络收集 1.8M 音轨，总计 16 万小时音频，并预提取音频特征以减少计算成本。

元数据处理

CLaMP 3 依赖音乐标题（Title）作为主要检索信号，通过检索增强生成（RAG）从 Web 获取丰富的元数据，包括风格、标签、背景信息等，最终借助 Qwen2.5-72B 构建 M4-RAG：

数据量：2.31M 元数据条目。

音乐-文本对齐：

ABC-文本：0.58M

MIDI-文本：0.17M

音频-文本：1.56M

元数据涵盖短文本（如流派、标签）和长文本（如背景介绍、音乐分析），提供全面的音乐描述信息。

表 1：M4-RAG 的元数据概览，按基本信息、注释和翻译进行分类。在注释（Annotations）部分，地区（Region）和语言（Language）以英语书写，其他字段遵循对应的语言规范。

M4-RAG的元数据概览

语言 & 地理覆盖

M4-RAG 涵盖 27 种语言，其中大部分元数据原始语言为英语。

翻译增强：使用 Qwen2.5-72B 进行翻译，增加低资源语言的数据量（如马来语、缅甸语）。

全球覆盖：数据来源于 194 个国家，涵盖主流音乐市场及多样化的地域音乐风格。

M4-RAG中原始数据和翻译数据的语言分布，覆盖27种语言。

图 3：M4-RAG 中原始数据和翻译数据的语言分布，覆盖 27 种语言.

实验结果：CLaMP 3 在跨模态、跨语言检索上超越现有 SOTA

CLaMP 3 在多个 MIR 任务上取得了当前最优（SOTA）性能，相比前代 CLaMP 2 和其他基线模型（如 CLAP、TTMR++），有显著提升。

跨模态音乐检索

在文本-音频、文本-乐谱等任务上，CLaMP 3 在 WikiMT-X、MidiCaps、MusicCaps-Remake 等基准数据集上的 MRR（Mean Reciprocal Rank）均超越基线：

文本-ABC 检索：MRR 0.4498（提升 >10%）

文本-音频检索：MRR 0.1985（超越 CLAP 与 TTMR++）

表 2：英文文本到音乐检索任务的结果，涵盖多个基准数据集。WikiMT 和 MidiCaps 各包含 1,010 对样本，Song Describer Dataset(SDD) 包含 706 个音频和 1,106 条文本描述，MusicCaps-Remake(MC-R) 包含 2,777 对样本。MC-R 通过使用完整音频和来自 AudioSet 评估集的重写文本描述，避免了数据泄漏。

英文文本到音乐检索任务的结果