🎉在这个新的一期,我们将带领大家深入浸入AI音乐创作的海洋🎵,让我们一起探讨一款由declare-lab开发的Hugging Face Space项目——Mustango,以及一篇相关的论文“Mustango: Toward Controllable Text-to-Music Generation”📝。两者的链接已在节目简介里给出。
🎼AI音乐创作的新篇章:Mustango🎸
首先,我们来介绍一下Mustango。这是一个由declare-lab开发的项目,旨在推动可控的文本到音乐的生成。简单来说,你只需输入文本,Mustango就能为你生成相应的音乐。你甚至可以通过特定的文本指令来控制生成的音乐的和弦、节奏、速度以及音调。🎹这是多么令人惊艳的AI音乐创作工具啊!
📚翻开知识的大门:Mustango的科技论文📖
接下来,让我们一起看看关于Mustango的论文。这篇名为“Mustango: Toward Controllable Text-to-Music Generation”的论文,由Jan Melechovsky等作者撰写,详细描述了Mustango的设计和实现过程。在论文中,他们提出了一种名为MuNet的音乐领域知识启发的UNet子模块,将从文本提示中预测的音乐特定特性,以及一般的文本嵌入,整合到扩散去噪过程中。🔬
🎁创新的数据增强方法和MusicBench数据集📈
为了克服开放数据集的有限可用性问题,该团队提出了一种新颖的数据增强方法,包括改变音乐音频的和声、节奏和动态方面,并使用最先进的音乐信息检索方法来提取音乐特征,然后将这些特征以文本形式附加到现有的描述中。他们发布的MusicBench数据集包含超过52K的实例,并且在标题文本中包含了基于音乐理论的描述。🎁
🥇实验结果:Mustango的音乐生成质量是最先进的🏆
通过大量的实验,我们发现Mustango生成的音乐质量是最先进的,而且通过音乐特定文本提示的可控性在期望的和弦、节拍、调性和速度等方面大大超过了其他模型。🥇
🚀总结:AI音乐创作的未来🌈
Mustango的出现,让我们看到了AI音乐创作的无限可能。随着技术的进步,我们期待看到更多类似Mustango这样的项目出现,让更多的人能够享受到AI带来的便利。🚀
🏁感谢收听
在下期节目中,我们还将继续为您介绍更多有趣的AI项目和最新的科技成果。我们下期再见!👋
[2311.08355] Mustango:迈向可控的文本到音乐生成 (arxiv.org)
Mustango - a Hugging Face Space by declare-lab
Mustango
- 1. Mustango 由两个组件组成:1) 潜在扩散模型;2)MuNet。
2. 借鉴 Tango(Ghosal 等人,2023) 和 AudioLDM(Liu 等人,2023b),利用潜在扩散模型 (LDM) 降低计算复杂性,同时保持扩散模型的表达能力。
3. 具体来说,我们使用一个额外的变分自编码器 (VAE) with condition C 来构建潜在音频 prior z0,其中 In our case refers to a joint music and text condition。
4. 通过前向扩散过程 (Markovian Hierarchical VAE),将潜在音频 prior z0 转化为标准高斯噪声 z N ∼ N (0, I),如公式 (1) 所示,其中预先设定的高斯噪声 (0)。
5. 在反向过程中,从高斯噪声 z N ∼ N (0, I) 中重构潜在音频 prior z n−1,通过 Music-Domain-Knowledge-Informed UNet (MuNet) 去噪器,其噪声估算器定义为 where MHA is multi-headed attention used for cross attention, where Q, K, and V are query, key, and value, respectively。
6. 在训练过程中,MuNet 采用的结构与 UNet(Ronneberger 等人,2015) 类似,包括多个下采样、中采样和上采样块,并通过跨注意力将条件纳入。
7. 在 MuNet 中,我们提出了两个编码器,Enc b 和 Enc c,分别对节拍和和弦特征进行编码,利用最先进的 Fundamental Music Embedding (FME) 和 Music Positional Encoding (MPE) (Guo 等人,2023) 确保音乐特征得到适当的捕捉和保留几个基本音乐属性 (如平移不变性等)。
8. 我们介绍了两个编码器的细节:Enc b 和 Enc c,它们从原始输入中提取节拍和和弦嵌入。
9. 在节拍编码器 Enc b 中,使用方程 (10) 获得编码的节拍和和弦嵌入。
10. 在获得编码的节拍和和弦嵌入后,我们使用两个额外的跨注意力层将音乐条件纳入去噪过程,与 TANGO(Ghosal 等人,2023) 相比,它仅使用一个跨注意力层来整合文本条件 (见方程 (9))。
11. 这使得 MuNet 能够在去噪过程中利用音乐和文本特征,从而生成更可控和更有意义的音乐。
12. 在训练阶段,我们使用教师强迫,因此利用地面真实节拍和和弦特征来约束音乐生成过程。
13. 然而,在推理阶段,我们采用不同的方法。
这篇论文介绍了一种名为Mustango的可控文本到音乐生成系统。该系统基于潜在扩散模型,以探戈文本到音频模型为基础,通过使用更丰富的文本描述来控制生成的音乐,这些描述可能包括与和弦、节拍、速度和键相关的特定指令。Mustango还包括一个名为MuNet的音乐领域知识告知的UNet子模块,用于将这些音乐特定特征(从文本提示中预测)以及一般的文本嵌入整合到扩散去噪过程中。为了解决音乐与文本字幕的开放数据集有限的问题,我们提出了一种新颖的数据增强方法,包括改变音乐的和声、节奏和动态方面,并使用最先进音乐信息检索方法提取音乐特征,然后将这些特征附加到现有的文本格式描述中。我们发布了包含超过52K个实例的音乐基准数据集,其中包括基于音乐理论的描述字幕。通过大量实验,我们证明了Mustango生成的音乐质量是领先的,而且通过音乐特定文本提示的控制大大优于其他模型,在多个数据集中在想要的和弦、节拍、键和速度方面都取得了更好的效果。
近年来,扩散模型(Popov et al., 2021)在图像(OpenAI, 2023)和音频(Liu et al., 2023a;Ghosal et al., 2023;Borsos et al., 2023)生成任务中表现出色。已有尝试使用扩散模型生成音乐(Huang et al., 2023;Schneider et al., 2023)。在音频领域,音乐占据其独特的空间,由其节奏的复杂性和独特的和声或旋律结构所特征。因此,本文旨在利用扩散模型的力量,配备音乐领域知识,从文本提示直接生成音频音乐片段。直接从扩散模型生成音乐面临着独特的挑战,首先,在生成音乐与条件的文本之间实现平衡并不容易。最近,Agostinelli et al. (2023) 提出了 MusicLM,以确保生成的音乐与输入文本匹配(例如,正确的乐器配置,音乐氛围)。然而,音乐性,如音乐上意义和一致的表演属性(例如,节奏),仍然只有一部分解决。其次,成对的音乐和文本描述数据集的可用性有限(Agostinelli et al., 2023;Huang et al., 2023)。虽然现有数据集中的文本描述包含诸如乐器配置或氛围等详细信息,但更能够捕捉音乐结构、和声和旋律方面的结构性描述信息是缺失的。因此,我们认为在生成过程中包含这些信息可能有助于改进现有的文本 – 音乐系统在音乐性方面的表现,例如遵循节拍、和弦进行和可控制性。除了现有文本 – 音乐系统的功能(例如设置正确的乐器配置)外,我们提出的 Mustango 模型使音乐家、制作人和音响设计师能够根据特定的条件创建音乐片段,例如遵循和弦进行、设置节奏和键选择。在本文中,我们将 Mustango 提交给 arXiv:2311.08355v1 [eess.AS] 14 Nov 2023,以解决这些挑战。我们的数据增强方法有两个主要组件:描述丰富和音乐多元化。描述丰富的目的是通过添加节拍和拍子位置、潜在的和弦进行、键和节奏作为控制信息来丰富现有的文本描述。在推理过程中,这些额外的描述性文本可以成功地将音乐生成导向用户指定的音乐质量。我们使用最先进的音乐信息检索(MIR)方法(Mauch 和 Dixon, 2010;Heydari et al., 2021;Bogdanov et al., 2013)从我们的训练数据中提取这些控制信息。随后,我们将这些信息(以文本格式)添加到现有的文本描述中,并使用 ChatGPT 将其重新表述为连贯和描述性的文本。此外,为了在训练集中 diversify 音乐样本,我们还通过改变三个方面(tempo、pitch 1 和 volume)来改变现有音乐的变体,从而基本上决定了音乐的节奏、和声和解释性方面。文本描述也随之相应地进行了更改。
这篇论文介绍了一种名为Mustango的可控文本到音乐生成系统。该系统基于潜在扩散模型,以探戈文本到音频模型为基础,通过使用更丰富的文本描述来控制生成的音乐,这些描述可能包括与和弦、节拍、速度和键相关的特定指令。Mustango还包括一个名为MuNet的音乐领域知识告知的UNet子模块,用于将这些音乐特定特征(从文本提示中预测)以及一般的文本嵌入整合到扩散去噪过程中。为了解决音乐与文本字幕的开放数据集有限的问题,我们提出了一种新颖的数据增强方法,包括改变音乐的和声、节奏和动态方面,并使用最先进音乐信息检索方法提取音乐特征,然后将这些特征附加到现有的文本格式描述中。我们发布了包含超过52K个实例的音乐基准数据集,其中包括基于音乐理论的描述字幕。通过大量实验,我们证明了Mustango生成的音乐质量是领先的,而且通过音乐特定文本提示的控制大大优于其他模型,在多个数据集中在想要的和弦、节拍、键和速度方面都取得了更好的效果。
近年来,扩散模型(Popov et al., 2021)在图像(OpenAI, 2023)和音频(Liu et al., 2023a;Ghosal et al., 2023;Borsos et al., 2023)生成任务中表现出色。已有尝试使用扩散模型生成音乐(Huang et al., 2023;Schneider et al., 2023)。在音频领域,音乐占据其独特的空间,由其节奏的复杂性和独特的和声或旋律结构所特征。因此,本文旨在利用扩散模型的力量,配备音乐领域知识,从文本提示直接生成音频音乐片段。直接从扩散模型生成音乐面临着独特的挑战,首先,在生成音乐与条件的文本之间实现平衡并不容易。最近,Agostinelli et al. (2023) 提出了 MusicLM,以确保生成的音乐与输入文本匹配(例如,正确的乐器配置,音乐氛围)。然而,音乐性,如音乐上意义和一致的表演属性(例如,节奏),仍然只有一部分解决。其次,成对的音乐和文本描述数据集的可用性有限(Agostinelli et al., 2023;Huang et al., 2023)。虽然现有数据集中的文本描述包含诸如乐器配置或氛围等详细信息,但更能够捕捉音乐结构、和声和旋律方面的结构性描述信息是缺失的。因此,我们认为在生成过程中包含这些信息可能有助于改进现有的文本 – 音乐系统在音乐性方面的表现,例如遵循节拍、和弦进行和可控制性。除了现有文本 – 音乐系统的功能(例如设置正确的乐器配置)外,我们提出的 Mustango 模型使音乐家、制作人和音响设计师能够根据特定的条件创建音乐片段,例如遵循和弦进行、设置节奏和键选择。在本文中,我们将 Mustango 提交给 arXiv:2311.08355v1 [eess.AS] 14 Nov 2023,以解决这些挑战。我们的数据增强方法有两个主要组件:描述丰富和音乐多元化。描述丰富的目的是通过添加节拍和拍子位置、潜在的和弦进行、键和节奏作为控制信息来丰富现有的文本描述。在推理过程中,这些额外的描述性文本可以成功地将音乐生成导向用户指定的音乐质量。我们使用最先进的音乐信息检索(MIR)方法(Mauch 和 Dixon, 2010;Heydari et al., 2021;Bogdanov et al., 2013)从我们的训练数据中提取这些控制信息。随后,我们将这些信息(以文本格式)添加到现有的文本描述中,并使用 ChatGPT 将其重新表述为连贯和描述性的文本。此外,为了在训练集中 diversify 音乐样本,我们还通过改变三个方面(tempo、pitch 1 和 volume)来改变现有音乐的变体,从而基本上决定了音乐的节奏、和声和解释性方面。文本描述也随之相应地进行了更改。