我们介绍了 MusicLM,这是一种从文本描述中生成高保真音乐的模型,例如“由扭曲的吉他即兴重复段支持的平静的小提琴旋律”. MusicLM 将条件音乐生成过程视为分层的序列到序列建模任务,它以 24 kHz 的频率生成音乐,并在几分钟内保持一致。我们的实验表明,MusicLM 在音频质量和对文本描述的遵守方面都优于以前的系统。此外,我们证明 MusicLM 可以同时以文本和旋律为条件,因为它可以根据文本标题中描述的风格转换口哨和哼唱的旋律。为了支持未来的研究,我们公开发布了 MusicCaps,这是一个由 5.5k 音乐文本对组成的数据集,其中包含由人类专家提供的丰富文本描述。
MusicLM: Generating Music From Text
Andrea Agostinelli, Timo I. Denk, Zalán Borsos, Jesse Engel, Mauro Verzetti, Antoine Caillon, Qingqing Huang, Aren Jansen, Adam Roberts, Marco Tagliasacchi, Matt Sharifi, Neil Zeghidour, Christian Frank
Google Research
Abstract We introduce MusicLM, a model generating high-fidelity music from text descriptions such as “a calming violin melody backed by a distorted guitar riff”. MusicLM casts the process of conditional music generation as a hierarchical sequence-to-sequence modeling task, and it generates music at 24 kHz that remains consistent over several minutes. Our experiments show that MusicLM outperforms previous systems both in audio quality and adherence to the text description. Moreover, we demonstrate that MusicLM can be conditioned on both text and a melody in that it can transform whistled and hummed melodies according to the style described in a text caption. To support future research, we publicly release MusicCaps, a dataset composed of 5.5k music-text pairs, with rich text descriptions provided by human experts.
这不是人类历史上第一个 AI 音乐生成工具。无论是谷歌的 AudioML 还是 OpenAI 的 Jukebox 项目都已经解决了这个问题,然而 MusicLM 拥有庞大的模型和训练数据库(280000 小时音乐),可以制作出更加具有多样性和深度的音乐。
就结果来看,人工智能不仅可以识别和充分融合你想要的流派和乐器,还可以使用普通机器都难以掌握的抽象概念来编写曲目。如果您想要编出一种舞曲和雷鬼音乐的混合风作品,要求其曲调“空旷、超凡脱俗”,还得能唤起“惊奇和敬畏之心”,MusicLM 就可以帮你迅速实现,它甚至可以根据嗡嗡声、口哨声或绘画描述来制作旋律,还可以通过故事模式将多个描述拼接在一起以制作出你想要的 DJ 或配乐。
原创文章,作者:校长,如若转载,请注明出处:https://www.yundongfang.com/Yun209652.html