Meta 在 AI 领域一直在迅速发展。马克·扎克伯格(Mark Zuckerberg)拥有的社交媒体巨头通过推出自己的“开源大型语言模型”LlaMa 2来应对OpenAI,Google和Microsoft等公司,现在,为了更上一层楼,Meta推出了自己的基于文本到语音的生成AI模型,称为AudioCraft。继续阅读以了解有关音频工艺的更多信息
Meta AudioCraft 揭幕
元维基的 AudioCraft 生成式 AI 模型可以帮助您使用简单的基于文本的提示生成高质量的音乐和音频。AudioCraft 最大的 USP 是它对 RAW 音频信号进行训练,以提供真实和逼真的体验。这类似于谷歌的音频AI工具MusicLM。
AudioCraft主要基于三种不同的AI模型:MusicGen,AudioGen和EnCodec。MusicGen的目的是使用元维基拥有和许可的音乐样本生成“基于文本的输入中的音乐”。另一方面,AudioGen通过使用公开可用的声音效果从基于文本的输入中生成“音频”。EnCodec解码器负责生成逼真的音频输出,正如Meta所说,“伪影更少”。
这意味着您可以使用单独聚焦的元素轻松生成不同的场景,这些元素将在最终输出中同步显示。例如,如果您使用提示“80 年代的爵士音乐,背景中有狗吠”,AudioCraft 将使用其 MusicGen 来传递您的爵士乐部分,而 AudioGen 将在背景中无缝插入和混合狗的吠叫。所有这些都将通过EnCodec的高级解码功能呈现给您。
虽然您可能认为 AudioCraft 最好的部分是它的生成 AI 功能,但事实并非如此。AudioCraft也是开源的。这意味着研究人员可以查看 AudioCraft 模型的源代码以进一步了解这项技术,并创建自己的数据集来帮助完善它。您可以通过GitHub查看AudioCraft的源代码。
使用AudioCraft,您可以轻松生成音乐和声音,以及创建压缩和生成。这使得 AudioCraft 具有多功能性,因为用户可以在现有代码库的基础上构建并创建更好的声音发生器和压缩算法。简而言之,您不必从头开始。您的基础将基于数据集的现有上限。
原创文章,作者:校长,如若转载,请注明出处:https://www.yundongfang.com/Yun247272.html