博客

AI音乐创作：MustangoAI音乐创作：
🎉在这个新的一期，我们将带领大家深入浸入AI音乐创作的海洋🎵，让我们一起探讨一款由declare-lab开发的Hugging Face Space项目——Mustango，以及一篇相关的论文「Mustango: Toward Controllable Text-to-Music Generation」📝。两者的链接已在节目简介里给出。

🎼AI音乐创作的新篇章：Mustango🎸

首先，我们来介绍一下Mustango。这是一个由declare-lab开发的项目，旨在推动可控的文本到音乐的生成。简单来说，你只需输入文本，Mustango就能为你生成相应的音乐。你甚至可以通过特定的文本指令来控制生成的音乐的和弦、节奏、速度以及音调。🎹这是多么令人惊艳的AI音乐创作工具啊！

📚翻开知识的大门：Mustango的科技论文📖

接下来，让我们一起看看关于Mustango的论文。这篇名为「Mustango: Toward Controllable Text-to-Music Generation」的论文，由Jan Melechovsky等作者撰写，详细描述了Mustango的设计和实现过程。在论文中，他们提出了一种名为MuNet的音乐领域知识启发的UNet子模块，将从文本提示中预测的音乐特定特性，以及一般的文本嵌入，整合到扩散去噪过程中。🔬

🎁创新的数据增强方法和MusicBench数据集📈

为了克服开放数据集的有限可用性问题，该团队提出了一种新颖的数据增强方法，包括改变音乐音频的和声、节奏和动态方面，并使用最先进的音乐信息检索方法来提取音乐特征，然后将这些特征以文本形式附加到现有的描述中。他们发布的MusicBench数据集包含超过52K的实例，并且在标题文本中包含了基于音乐理论的描述。🎁

🥇实验结果：Mustango的音乐生成质量是最先进的🏆

通过大量的实验，我们发现Mustango生成的音乐质量是最先进的，而且通过音乐特定文本提示的可控性在期望的和弦、节拍、调性和速度等方面大大超过了其他模型。🥇

🚀总结：AI音乐创作的未来🌈

Mustango的出现，让我们看到了AI音乐创作的无限可能。随着技术的进步，我们期待看到更多类似Mustango这样的项目出现，让更多的人能够享受到AI带来的便利。🚀

🏁感谢收听

在下期节目中，我们还将继续为您介绍更多有趣的AI项目和最新的科技成果。我们下期再见！👋

[2311.08355] Mustango：迈向可控的文本到音乐生成 (arxiv.org)

Mustango – a Hugging Face Space by declare-lab

Mustango
- 1. Mustango 由两个组件组成:1) 潜在扩散模型;2)MuNet。
  2. 借鉴 Tango(Ghosal 等人，2023) 和 AudioLDM(Liu 等人，2023b),利用潜在扩散模型 (LDM) 降低计算复杂性，同时保持扩散模型的表达能力。
  3. 具体来说，我们使用一个额外的变分自编码器 (VAE) with condition C 来构建潜在音频 prior z0，其中 In our case refers to a joint music and text condition。
  4. 通过前向扩散过程 (Markovian Hierarchical VAE),将潜在音频 prior z0 转化为标准高斯噪声 z N ∼ N (0, I),如公式 (1) 所示，其中预先设定的高斯噪声 (0)。
  5. 在反向过程中，从高斯噪声 z N ∼ N (0, I) 中重构潜在音频 prior z n−1，通过 Music-Domain-Knowledge-Informed UNet (MuNet) 去噪器，其噪声估算器定义为 where MHA is multi-headed attention used for cross attention, where Q, K, and V are query, key, and value, respectively。
  6. 在训练过程中，MuNet 采用的结构与 UNet(Ronneberger 等人，2015) 类似，包括多个下采样、中采样和上采样块，并通过跨注意力将条件纳入。
  7. 在 MuNet 中，我们提出了两个编码器，Enc b 和 Enc c，分别对节拍和和弦特征进行编码，利用最先进的 Fundamental Music Embedding (FME) 和 Music Positional Encoding (MPE) (Guo 等人，2023) 确保音乐特征得到适当的捕捉和保留几个基本音乐属性 (如平移不变性等)。
  8. 我们介绍了两个编码器的细节:Enc b 和 Enc c，它们从原始输入中提取节拍和和弦嵌入。
  9. 在节拍编码器 Enc b 中，使用方程 (10) 获得编码的节拍和和弦嵌入。
  10. 在获得编码的节拍和和弦嵌入后，我们使用两个额外的跨注意力层将音乐条件纳入去噪过程，与 TANGO(Ghosal 等人，2023) 相比，它仅使用一个跨注意力层来整合文本条件 (见方程 (9))。
  11. 这使得 MuNet 能够在去噪过程中利用音乐和文本特征，从而生成更可控和更有意义的音乐。
  12. 在训练阶段，我们使用教师强迫，因此利用地面真实节拍和和弦特征来约束音乐生成过程。
  13. 然而，在推理阶段，我们采用不同的方法。
2023 年 11 月 26 日
探索人工智能——Zephyr 7B Beta与GGUF的奇妙之旅🚀

我们的主角是Zephyr 7B Beta和GGUF，它们都是我们这个广阔世界中的一颗璀璨星辰。🌟

Zephyr 7B Beta与GGUF的特色🌈

首先，让我们来了解一下Zephyr 7B Beta和GGUF。Zephyr 7B Beta是由Hugging Face H4团队开发的一个模型，GGUF则是由llama.cpp团队在2023年8月21日推出的一种全新格式，它取代了以前的GGML格式。GGUF已经得到了多个客户端和库的支持，包括llama.cpp、text-generation-webui、KoboldCpp、LM Studio、LoLLMS Web UI、Faraday.dev、ctransformers、llama-cpp-python和candle等。👏

GGUF的兼容性⚙️

GGUF文件与llama.cpp的兼容性始于2023年8月27日的d0cee0d提交。除此之外，它还与许多第三方的用户界面和库兼容。🔗

GGUF的量化方法🔬

接下来，我们来深入探讨一下GGUF的量化方法。GGUF采用了一种新的量化方法，包括2位、3位、4位、5位和6位的量化。这些不同的量化方法使模型在保证质量的同时，能够以更小的体积进行存储和传输，从而极大地提高了效率。🚀

如何下载GGUF文件💾

很多人可能会对如何下载GGUF文件感到困惑。实际上，你并不需要下载整个库，而只需要选择你想要的文件进行下载即可。例如，在text-generation-webui中，你可以直接输入模型库：TheBloke/zephyr-7B-beta-GGUF，然后输入你想要下载的文件名，如：zephyr-7b-beta.Q4_K_M.gguf，再点击下载即可。如果你想在命令行中下载多个文件，可以通过安装huggingface-hub Python库来实现。📥

结语🎈

以上就是我们今天的内容，人工智能的世界，充满了无限的可能，让我们一起期待它们为我们的生活带来更多的便利和乐趣。

2023 年 11 月 26 日

博客

AI音乐创作：MustangoAI音乐创作：

探索人工智能——Zephyr 7B Beta与GGUF的奇妙之旅🚀

Zephyr 7B Beta与GGUF的特色🌈

GGUF的兼容性⚙️

GGUF的量化方法🔬

如何下载GGUF文件💾

结语🎈