1. Mustango 由两个组件组成:1) 潜在扩散模型;2)MuNet。 2. 借鉴 Tango(Ghosal 等人,2023) 和 AudioLDM(Liu 等人,2023b),利用潜在扩散模型 (LDM) 降低计算复杂性,同时保持扩散模型的表达能力。 3. 具体来说,我们使用一个额外的变分自编码器 (VAE) with condition C 来构建潜在音频 prior z0,其中 In our case refers to a joint music and text condition。 4. 通过前向扩散过程 (Markovian Hierarchical VAE),将潜在音频 prior z0 转化为标准高斯噪声 z N ∼ N (0, I. ,如公式 (1) 所示,其中预先设定的高斯噪声 (0)。✅ 5. 在反向过程中,从高斯噪声 z N ∼ N (0, I. 中重构潜在音频 prior z n−1,通过 Music-Domain-Knowledge-Informed UNet (MuNet) 去噪器,其噪声估算器定义为 where MHA is multi-headed attention used for cross attention, where Q, K, and V are query, key, and value, respectively。✅ 6. 在训练过程中,MuNet 采用的结构与 UNet(Ronneberger 等人,2015) 类似,包括多个下采样、中采样和上采样块,并通过跨注意力将条件纳入。 7. 在 MuNet 中,我们提出了两个编码器,Enc b 和 Enc c,分别对节拍和和弦特征进行编码,利用最先进的 Fundamental Music Embedding (FME) 和 Music Positional Encoding (MPE) (Guo 等人,2023) 确保音乐特征得到适当的捕捉和保留几个基本音乐属性 (如平移不变性等)。 8. 我们介绍了两个编码器的细节:Enc b 和 Enc c,它们从原始输入中提取节拍和和弦嵌入。 9. 在节拍编码器 Enc b 中,使用方程 (10) 获得编码的节拍和和弦嵌入。 10. 在获得编码的节拍和和弦嵌入后,我们使用两个额外的跨注意力层将音乐条件纳入去噪过程,与 TANGO(Ghosal 等人,2023) 相比,它仅使用一个跨注意力层来整合文本条件 (见方程 (9))。 11. 这使得 MuNet 能够在去噪过程中利用音乐和文本特征,从而生成更可控和更有意义的音乐。 12. 在训练阶段,我们使用教师强迫,因此利用地面真实节拍和和弦特征来约束音乐生成过程。 13. 然而,在推理阶段,我们采用不同的方法。
🎉在这个新的一期,我们将带领大家深入浸入AI音乐创作的海洋🎵,让我们一起探讨一款由declare-lab开发的Hugging Face Space项目——Mustango,以及一篇相关的论文“Mustango: Toward Controllable Text-to-Music Generation”📝。两者的链接已在节目简介里给出。
🎼AI音乐创作的新篇章:Mustango🎸
首先,我们来介绍一下Mustango。这是一个由declare-lab开发的项目,旨在推动可控的文本到音乐的生成。简单来说,你只需输入文本,Mustango就能为你生成相应的音乐。你甚至可以通过特定的文本指令来控制生成的音乐的和弦、节奏、速度以及音调。🎹这是多么令人惊艳的AI音乐创作工具啊!
📚翻开知识的大门:Mustango的科技论文📖
接下来,让我们一起看看关于Mustango的论文。这篇名为“Mustango: Toward Controllable Text-to-Music Generation”的论文,由Jan Melechovsky等作者撰写,详细描述了Mustango的设计和实现过程。在论文中,他们提出了一种名为MuNet的音乐领域知识启发的UNet子模块,将从文本提示中预测的音乐特定特性,以及一般的文本嵌入,整合到扩散去噪过程中。🔬
🎁创新的数据增强方法和MusicBench数据集📈
为了克服开放数据集的有限可用性问题,该团队提出了一种新颖的数据增强方法,包括改变音乐音频的和声、节奏和动态方面,并使用最先进的音乐信息检索方法来提取音乐特征,然后将这些特征以文本形式附加到现有的描述中。他们发布的MusicBench数据集包含超过52K的实例,并且在标题文本中包含了基于音乐理论的描述。🎁
🥇实验结果:Mustango的音乐生成质量是最先进的🏆
通过大量的实验,我们发现Mustango生成的音乐质量是最先进的,而且通过音乐特定文本提示的可控性在期望的和弦、节拍、调性和速度等方面大大超过了其他模型。🥇
🚀总结:AI音乐创作的未来🌈
Mustango的出现,让我们看到了AI音乐创作的无限可能。随着技术的进步,我们期待看到更多类似Mustango这样的项目出现,让更多的人能够享受到AI带来的便利。🚀
🏁感谢收听
在下期节目中,我们还将继续为您介绍更多有趣的AI项目和最新的科技成果。我们下期再见!👋
[2311.08355] Mustango:迈向可控的文本到音乐生成 (arxiv.org)
Mustango – a Hugging Face Space by declare-lab
Mustango
2. 借鉴 Tango(Ghosal 等人,2023) 和 AudioLDM(Liu 等人,2023b),利用潜在扩散模型 (LDM) 降低计算复杂性,同时保持扩散模型的表达能力。
3. 具体来说,我们使用一个额外的变分自编码器 (VAE) with condition C 来构建潜在音频 prior z0,其中 In our case refers to a joint music and text condition。
4. 通过前向扩散过程 (Markovian Hierarchical VAE),将潜在音频 prior z0 转化为标准高斯噪声 z N ∼ N (0, I. ,如公式 (1) 所示,其中预先设定的高斯噪声 (0)。✅
5. 在反向过程中,从高斯噪声 z N ∼ N (0, I. 中重构潜在音频 prior z n−1,通过 Music-Domain-Knowledge-Informed UNet (MuNet) 去噪器,其噪声估算器定义为 where MHA is multi-headed attention used for cross attention, where Q, K, and V are query, key, and value, respectively。✅
6. 在训练过程中,MuNet 采用的结构与 UNet(Ronneberger 等人,2015) 类似,包括多个下采样、中采样和上采样块,并通过跨注意力将条件纳入。
7. 在 MuNet 中,我们提出了两个编码器,Enc b 和 Enc c,分别对节拍和和弦特征进行编码,利用最先进的 Fundamental Music Embedding (FME) 和 Music Positional Encoding (MPE) (Guo 等人,2023) 确保音乐特征得到适当的捕捉和保留几个基本音乐属性 (如平移不变性等)。
8. 我们介绍了两个编码器的细节:Enc b 和 Enc c,它们从原始输入中提取节拍和和弦嵌入。
9. 在节拍编码器 Enc b 中,使用方程 (10) 获得编码的节拍和和弦嵌入。
10. 在获得编码的节拍和和弦嵌入后,我们使用两个额外的跨注意力层将音乐条件纳入去噪过程,与 TANGO(Ghosal 等人,2023) 相比,它仅使用一个跨注意力层来整合文本条件 (见方程 (9))。
11. 这使得 MuNet 能够在去噪过程中利用音乐和文本特征,从而生成更可控和更有意义的音乐。
12. 在训练阶段,我们使用教师强迫,因此利用地面真实节拍和和弦特征来约束音乐生成过程。
13. 然而,在推理阶段,我们采用不同的方法。