AI音乐创作:MustangoAI音乐创作:

🎉在这个新的一期,我们将带领大家深入浸入AI音乐创作的海洋🎵,让我们一起探讨一款由declare-lab开发的Hugging Face Space项目——Mustango,以及一篇相关的论文“Mustango: Toward Controllable Text-to-Music Generation”📝。两者的链接已在节目简介里给出。

🎼AI音乐创作的新篇章:Mustango🎸

首先,我们来介绍一下Mustango。这是一个由declare-lab开发的项目,旨在推动可控的文本到音乐的生成。简单来说,你只需输入文本,Mustango就能为你生成相应的音乐。你甚至可以通过特定的文本指令来控制生成的音乐的和弦、节奏、速度以及音调。🎹这是多么令人惊艳的AI音乐创作工具啊!

📚翻开知识的大门:Mustango的科技论文📖

接下来,让我们一起看看关于Mustango的论文。这篇名为“Mustango: Toward Controllable Text-to-Music Generation”的论文,由Jan Melechovsky等作者撰写,详细描述了Mustango的设计和实现过程。在论文中,他们提出了一种名为MuNet的音乐领域知识启发的UNet子模块,将从文本提示中预测的音乐特定特性,以及一般的文本嵌入,整合到扩散去噪过程中。🔬

🎁创新的数据增强方法和MusicBench数据集📈

为了克服开放数据集的有限可用性问题,该团队提出了一种新颖的数据增强方法,包括改变音乐音频的和声、节奏和动态方面,并使用最先进的音乐信息检索方法来提取音乐特征,然后将这些特征以文本形式附加到现有的描述中。他们发布的MusicBench数据集包含超过52K的实例,并且在标题文本中包含了基于音乐理论的描述。🎁

🥇实验结果:Mustango的音乐生成质量是最先进的🏆

通过大量的实验,我们发现Mustango生成的音乐质量是最先进的,而且通过音乐特定文本提示的可控性在期望的和弦、节拍、调性和速度等方面大大超过了其他模型。🥇

🚀总结:AI音乐创作的未来🌈

Mustango的出现,让我们看到了AI音乐创作的无限可能。随着技术的进步,我们期待看到更多类似Mustango这样的项目出现,让更多的人能够享受到AI带来的便利。🚀

🏁感谢收听

在下期节目中,我们还将继续为您介绍更多有趣的AI项目和最新的科技成果。我们下期再见!👋

[2311.08355] Mustango:迈向可控的文本到音乐生成 (arxiv.org)

Mustango – a Hugging Face Space by declare-lab


Mustango

  • 1. Mustango 由两个组件组成:1) 潜在扩散模型;2)MuNet。
    2. 借鉴 Tango(Ghosal 等人,2023) 和 AudioLDM(Liu 等人,2023b),利用潜在扩散模型 (LDM) 降低计算复杂性,同时保持扩散模型的表达能力。
    3. 具体来说,我们使用一个额外的变分自编码器 (VAE) with condition C 来构建潜在音频 prior z0,其中 In our case refers to a joint music and text condition。
    4. 通过前向扩散过程 (Markovian Hierarchical VAE),将潜在音频 prior z0 转化为标准高斯噪声 z N ∼ N (0, I. ,如公式 (1) 所示,其中预先设定的高斯噪声 (0)。
    5. 在反向过程中,从高斯噪声 z N ∼ N (0, I. 中重构潜在音频 prior z n−1,通过 Music-Domain-Knowledge-Informed UNet (MuNet) 去噪器,其噪声估算器定义为 where MHA is multi-headed attention used for cross attention, where Q, K, and V are query, key, and value, respectively。
    6. 在训练过程中,MuNet 采用的结构与 UNet(Ronneberger 等人,2015) 类似,包括多个下采样、中采样和上采样块,并通过跨注意力将条件纳入。
    7. 在 MuNet 中,我们提出了两个编码器,Enc b 和 Enc c,分别对节拍和和弦特征进行编码,利用最先进的 Fundamental Music Embedding (FME) 和 Music Positional Encoding (MPE) (Guo 等人,2023) 确保音乐特征得到适当的捕捉和保留几个基本音乐属性 (如平移不变性等)。
    8. 我们介绍了两个编码器的细节:Enc b 和 Enc c,它们从原始输入中提取节拍和和弦嵌入。
    9. 在节拍编码器 Enc b 中,使用方程 (10) 获得编码的节拍和和弦嵌入。
    10. 在获得编码的节拍和和弦嵌入后,我们使用两个额外的跨注意力层将音乐条件纳入去噪过程,与 TANGO(Ghosal 等人,2023) 相比,它仅使用一个跨注意力层来整合文本条件 (见方程 (9))。
    11. 这使得 MuNet 能够在去噪过程中利用音乐和文本特征,从而生成更可控和更有意义的音乐。
    12. 在训练阶段,我们使用教师强迫,因此利用地面真实节拍和和弦特征来约束音乐生成过程。
    13. 然而,在推理阶段,我们采用不同的方法。
0 0 投票数
Article Rating
订阅评论
提醒
4 评论
最多投票
最新 最旧
内联反馈
查看所有评论
4
0
希望看到您的想法,请您发表评论x