分类: AGI

  • AI音乐创作:MustangoAI音乐创作:

    🎉在这个新的一期,我们将带领大家深入浸入AI音乐创作的海洋🎵,让我们一起探讨一款由declare-lab开发的Hugging Face Space项目——Mustango,以及一篇相关的论文“Mustango: Toward Controllable Text-to-Music Generation”📝。两者的链接已在节目简介里给出。

    🎼AI音乐创作的新篇章:Mustango🎸

    首先,我们来介绍一下Mustango。这是一个由declare-lab开发的项目,旨在推动可控的文本到音乐的生成。简单来说,你只需输入文本,Mustango就能为你生成相应的音乐。你甚至可以通过特定的文本指令来控制生成的音乐的和弦、节奏、速度以及音调。🎹这是多么令人惊艳的AI音乐创作工具啊!

    📚翻开知识的大门:Mustango的科技论文📖

    接下来,让我们一起看看关于Mustango的论文。这篇名为“Mustango: Toward Controllable Text-to-Music Generation”的论文,由Jan Melechovsky等作者撰写,详细描述了Mustango的设计和实现过程。在论文中,他们提出了一种名为MuNet的音乐领域知识启发的UNet子模块,将从文本提示中预测的音乐特定特性,以及一般的文本嵌入,整合到扩散去噪过程中。🔬

    🎁创新的数据增强方法和MusicBench数据集📈

    为了克服开放数据集的有限可用性问题,该团队提出了一种新颖的数据增强方法,包括改变音乐音频的和声、节奏和动态方面,并使用最先进的音乐信息检索方法来提取音乐特征,然后将这些特征以文本形式附加到现有的描述中。他们发布的MusicBench数据集包含超过52K的实例,并且在标题文本中包含了基于音乐理论的描述。🎁

    🥇实验结果:Mustango的音乐生成质量是最先进的🏆

    通过大量的实验,我们发现Mustango生成的音乐质量是最先进的,而且通过音乐特定文本提示的可控性在期望的和弦、节拍、调性和速度等方面大大超过了其他模型。🥇

    🚀总结:AI音乐创作的未来🌈

    Mustango的出现,让我们看到了AI音乐创作的无限可能。随着技术的进步,我们期待看到更多类似Mustango这样的项目出现,让更多的人能够享受到AI带来的便利。🚀

    🏁感谢收听

    在下期节目中,我们还将继续为您介绍更多有趣的AI项目和最新的科技成果。我们下期再见!👋

    [2311.08355] Mustango:迈向可控的文本到音乐生成 (arxiv.org)

    Mustango – a Hugging Face Space by declare-lab


    Mustango

    • 1. Mustango 由两个组件组成:1) 潜在扩散模型;2)MuNet。
      2. 借鉴 Tango(Ghosal 等人,2023) 和 AudioLDM(Liu 等人,2023b),利用潜在扩散模型 (LDM) 降低计算复杂性,同时保持扩散模型的表达能力。
      3. 具体来说,我们使用一个额外的变分自编码器 (VAE) with condition C 来构建潜在音频 prior z0,其中 In our case refers to a joint music and text condition。
      4. 通过前向扩散过程 (Markovian Hierarchical VAE),将潜在音频 prior z0 转化为标准高斯噪声 z N ∼ N (0, I),如公式 (1) 所示,其中预先设定的高斯噪声 (0)。
      5. 在反向过程中,从高斯噪声 z N ∼ N (0, I) 中重构潜在音频 prior z n−1,通过 Music-Domain-Knowledge-Informed UNet (MuNet) 去噪器,其噪声估算器定义为 where MHA is multi-headed attention used for cross attention, where Q, K, and V are query, key, and value, respectively。
      6. 在训练过程中,MuNet 采用的结构与 UNet(Ronneberger 等人,2015) 类似,包括多个下采样、中采样和上采样块,并通过跨注意力将条件纳入。
      7. 在 MuNet 中,我们提出了两个编码器,Enc b 和 Enc c,分别对节拍和和弦特征进行编码,利用最先进的 Fundamental Music Embedding (FME) 和 Music Positional Encoding (MPE) (Guo 等人,2023) 确保音乐特征得到适当的捕捉和保留几个基本音乐属性 (如平移不变性等)。
      8. 我们介绍了两个编码器的细节:Enc b 和 Enc c,它们从原始输入中提取节拍和和弦嵌入。
      9. 在节拍编码器 Enc b 中,使用方程 (10) 获得编码的节拍和和弦嵌入。
      10. 在获得编码的节拍和和弦嵌入后,我们使用两个额外的跨注意力层将音乐条件纳入去噪过程,与 TANGO(Ghosal 等人,2023) 相比,它仅使用一个跨注意力层来整合文本条件 (见方程 (9))。
      11. 这使得 MuNet 能够在去噪过程中利用音乐和文本特征,从而生成更可控和更有意义的音乐。
      12. 在训练阶段,我们使用教师强迫,因此利用地面真实节拍和和弦特征来约束音乐生成过程。
      13. 然而,在推理阶段,我们采用不同的方法。
  • 探索人工智能——Zephyr 7B Beta与GGUF的奇妙之旅🚀

    我们的主角是Zephyr 7B Beta和GGUF,它们都是我们这个广阔世界中的一颗璀璨星辰。🌟

    Zephyr 7B Beta与GGUF的特色🌈

    首先,让我们来了解一下Zephyr 7B Beta和GGUF。Zephyr 7B Beta是由Hugging Face H4团队开发的一个模型,GGUF则是由llama.cpp团队在2023年8月21日推出的一种全新格式,它取代了以前的GGML格式。GGUF已经得到了多个客户端和库的支持,包括llama.cpp、text-generation-webui、KoboldCpp、LM Studio、LoLLMS Web UI、Faraday.dev、ctransformers、llama-cpp-python和candle等。👏

    GGUF的兼容性⚙️

    GGUF文件与llama.cpp的兼容性始于2023年8月27日的d0cee0d提交。除此之外,它还与许多第三方的用户界面和库兼容。🔗

    GGUF的量化方法🔬

    接下来,我们来深入探讨一下GGUF的量化方法。GGUF采用了一种新的量化方法,包括2位、3位、4位、5位和6位的量化。这些不同的量化方法使模型在保证质量的同时,能够以更小的体积进行存储和传输,从而极大地提高了效率。🚀

    如何下载GGUF文件💾

    很多人可能会对如何下载GGUF文件感到困惑。实际上,你并不需要下载整个库,而只需要选择你想要的文件进行下载即可。例如,在text-generation-webui中,你可以直接输入模型库:TheBloke/zephyr-7B-beta-GGUF,然后输入你想要下载的文件名,如:zephyr-7b-beta.Q4_K_M.gguf,再点击下载即可。如果你想在命令行中下载多个文件,可以通过安装huggingface-hub Python库来实现。📥

    结语🎈

    以上就是我们今天的内容,人工智能的世界,充满了无限的可能,让我们一起期待它们为我们的生活带来更多的便利和乐趣。

人生梦想 - 关注前沿的计算机技术 acejoy.com 🐾 步子哥の博客 🐾 背多分论坛 🐾 借一步网
Page Stats: PV: 2034 | UV: 1177
Last updated: 2025-06-22 01:26:38
沪ICP备2024052574号-1