Meta推出生成式AI音频工具AudioCraft

2023年8月4日下午9:49 • 最新资讯

Meta 在 AI 领域一直在迅速发展。马克·扎克伯格（Mark Zuckerberg）拥有的社交媒体巨头通过推出自己的“开源大型语言模型”LlaMa 2来应对OpenAI，Google和Microsoft等公司，现在，为了更上一层楼，Meta推出了自己的基于文本到语音的生成AI模型，称为AudioCraft。继续阅读以了解有关音频工艺的更多信息

Meta AudioCraft 揭幕

元维基的 AudioCraft 生成式 AI 模型可以帮助您使用简单的基于文本的提示生成高质量的音乐和音频。AudioCraft 最大的 USP 是它对 RAW 音频信号进行训练，以提供真实和逼真的体验。这类似于谷歌的音频AI工具MusicLM。

AudioCraft主要基于三种不同的AI模型：MusicGen，AudioGen和EnCodec。MusicGen的目的是使用元维基拥有和许可的音乐样本生成“基于文本的输入中的音乐”。另一方面，AudioGen通过使用公开可用的声音效果从基于文本的输入中生成“音频”。EnCodec解码器负责生成逼真的音频输出，正如Meta所说，“伪影更少”。

这意味着您可以使用单独聚焦的元素轻松生成不同的场景，这些元素将在最终输出中同步显示。例如，如果您使用提示“80 年代的爵士音乐，背景中有狗吠”，AudioCraft 将使用其 MusicGen 来传递您的爵士乐部分，而 AudioGen 将在背景中无缝插入和混合狗的吠叫。所有这些都将通过EnCodec的高级解码功能呈现给您。

🎵 今天，我们将分享有关 AUDIOCRAFT 的详细信息，这是一个生成式 AI 模型系列，可让您轻松地从文本生成高质量的音频和音乐。HTTPS://T.CO/04XAQ4RLAP PIC.TWITTER.COM/JREMIBGBTF

— 元新闻室（@METANEWSROOM） 2 年 2023 月 <> 日

虽然您可能认为 AudioCraft 最好的部分是它的生成 AI 功能，但事实并非如此。AudioCraft也是开源的。这意味着研究人员可以查看 AudioCraft 模型的源代码以进一步了解这项技术，并创建自己的数据集来帮助完善它。您可以通过GitHub查看AudioCraft的源代码。

使用AudioCraft，您可以轻松生成音乐和声音，以及创建压缩和生成。这使得 AudioCraft 具有多功能性，因为用户可以在现有代码库的基础上构建并创建更好的声音发生器和压缩算法。简而言之，您不必从头开始。您的基础将基于数据集的现有上限。

原创文章，作者：校长，如若转载，请注明出处：https://www.yundongfang.com/Yun247272.html

AudioCraft 文本音频

打赏

微信扫一扫不于多少！

支付宝扫一扫礼轻情意重

如何使用自己的数据训练Llama 2

上一篇 2023年8月4日下午9:42

GitHub Copilot 现在可以通知开发人员代码建议是否与公开可用的代码匹配

下一篇 2023年8月5日

Napkin：文本转换为信息图表

Napkin：文本转换为信息图表 Napkin AI 是一个将文本内容转换为视觉图像的工具，旨在通过生成图表、流程图等视觉元素来加速和提高业务故事讲述的效果。使用 Napkin …

工具软件 2024年8月31日
Win 11

如何使用 Windows Phone 链接复制 Android 照片中的文本

Windows 上的 Phone Link 应用程序具有多项功能，可让用户连接到智能手机并访问其内容。现在，Microsoft使用新的“文本”工具更新了该应用程序，该工具也与Sni…

2024年5月30日
已解决：Microsoft商店中缺少Realtek音频控制台

https://u.jd.com/kz2KLti 我们都使用Microsoft商店作为应用程序的一站式商店，但是当Realtek音频控制台丢失时，它引出了一个问题，这是商店问题还是…

2024年5月29日 • 微软Microsoft
Spotify 无损（几乎）在这里，但不要抱有希望！

经过多年的失望等待，Spotify用户以研究的怀疑态度看待有关Spotify无损音频的大多数泄漏和猜测。谁能责怪他们？自宣布以来已经三年了，几乎没有关于确切发布日期的消息！因此，每…

2024年5月20日 • 工具软件
ChatGPT产品层面的更新

ChatGPT产品层面的更新新的 ChatGPT 更新，支持利用 GPT-4o 进行实时的语音和视频对话。网页端和移动端全新的 UI 设计。发布 Mac 版本的 ChatGP…

工具软件 2024年5月20日
关于GPT-4o 模型更新

关于GPT-4o 模型更新它可以接受任意组合的文本、音频和图像作为输入，并生成任意组合的文本、音频和图像输出。它可以在 232 毫秒内响应音频输入，平均为 320 毫秒，这与人…

工具软件 2024年5月20日
工具软件

Adobe 发布 Firefly Image 3 模型及对应新功能

Adobe 发布 Firefly Image 3 模型及对应新功能 Adobe 发布了Firefly Image 3模型，Photoshop（测试版）也大规模更新了很多功能。包括文…

2024年5月10日
工具软件

谷歌发布了一堆AI能力和升级

谷歌发布了一堆AI能力和升级 Google Next 2024上周放出了不少狠货，这次 Open AI 没能够压下去热度。首先是 Gemini Pro 1.5 进行了一大波升级，…

2024年5月10日
无法在iPhone中发送音频消息：这是修复

无法在 iPhone 上从 iMessage 发送音频消息？音频消息始终优先于普通短信。它不仅速度快，而且比输入消息更方便。如果您无法发送音频消息，请不要担心。这些简短且易于实施的…

2024年5月3日 • 苹果Apple
如何使用 PowerToys 在 Windows 上查看音频文件

PowerToys 中的 Peek 实用程序现在支持预览音频文件。从 PowerToys 版本 0.80.0 开始，您将能够查看多种音频文件格式的内容，而无需在其专用应用程序中打开…

2024年4月11日 • Win 11
工具软件

WhatsApp将获得基于文本的状态更新的新界面以及转发和快退视频的能力

WhatsApp 通过定期更新不断改进。最近的报道表明，WhatsApp正在开发一个新的状态更新界面，为基于文本的更新提供自己的空间。此外，WhatsApp 还改进了平台上的视频播…

2024年4月6日
Excel不断更改数字：如何修复

Excel 具有此功能，它可以自动将单元格中的数字转换为特定日期。但是，如果 Excel 开始将数字更改为日期格式，这个有用的功能很快就会成为您头疼的原因！此问题可能会影响整个行或…

2024年3月31日 • 苹果Apple
工具软件

Open-Sora 开源替代 OpenAI 的 Sora 文本转视频 AI

Open-Sora 开源替代 OpenAI 的 Sora 文本转视频 AI 继今年早些时候推出 Sora 之后，OpenAI 强大的文本到视频 AI 模型以 Open-Sora 的…

2024年3月26日
工具软件

Denon DHT-S218杜比全景声条形音箱推出

Denon DHT-S218杜比全景声条形音箱推出 Denon推出DHT-S218杜比全景声条形音箱（Dolby Atmos Sound Bar），这是一种高级音频解决方案，旨在将…

2024年3月26日
工具软件

为 Claude 3、ChatGPT 和 Gemini 发布的终极 AI 提示库

为 Claude 3、ChatGPT 和 Gemini 发布的终极 AI 提示库提示是人工智能（AI）的命脉，可让您从大型语言模型中获得最佳结果。如果您正在寻找在尖端技术和 …

2024年3月15日
苹果Apple

在 iPhone 上从 PDF 获取文本的 3 种方法

Apple 的实况文本功能可以识别“照片”或“相机”应用程序中的文本、手写笔记和数字，并允许您将这些信息粘贴到任何其他应用程序上。但是，当您处理 PDF 并想从中提取文本时，您会怎…

2024年2月22日
如何使用截图工具从图像中编辑和提取文本 Windows 11

与许多其他应用程序一样，Microsoft正在更新和简化Windows的本机屏幕截图应用程序Snipping Tool，并提供一些新功能。“文本操作”是一项基于 OCR 的新功能，…

2024年2月2日 • Win 11
在 iPhone 上为文本添加下划线的 11 种方法

在计算机上进行文本编辑非常简单。您可以使用 Command（在 CTRL 上）+ U 键盘快捷键为部分文本添加下划线。不过，在你的手机上，情况有点不同。由于您在手机上处理很多应用程…

2024年1月19日 • 苹果Apple
工具软件

Google Gemini Pro 与 OpenAI ChatGPT-4 AI 模型比较

自去年年底推出并随后在 Google Bard 中推出以来，谷歌最新的 AI 模型 Gemini Pro 是 OpenAI 的 ChatGPT 的主要竞争对手，提供非常相似的多模态…

2024年1月2日
如何在后台或锁定iPhone的情况下继续收听YouTube

在 iPhone 上，在后台收听 YouTube 音频通常需要支付 YouTube Premium 订阅费用，但有一个简单的解决方法可让您在 iPhone 上执行其他操作或设备锁定…

2023年12月29日 • 苹果Apple
TextDiffuser-2：为文本渲染释放语言模型的力量

TextDiffuser-2：为文本渲染释放语言模型的力量可以稳定在扩散模型中生成指定位置和风格的英文文本，它是借助的微调后的大语言模型来规划文本布局，以及编码文本的位置。

工具软件 2023年12月26日
MediaEditor：轻量、跨平台的开源非线性编辑

特征支持完整的时间线编辑功能，包括移动、裁剪、剪切、缩略图预览、缩放和删除。支持更加灵活便捷的蓝图系统。蓝图以节点的形式表示，可以通过节点和流程处理复杂的功能。支持约 45+…

工具软件 2023年12月23日
工具软件

无法检测的 AI 评论：功能强大、易于使用的反 AI 检测器

多亏了人工智能工具，写作从未如此简单。无论您是想批量创建短篇文章还是长篇文章，您都可以在几秒钟内生成最令人惊叹的文本。但是，您的一些读者使用 AI 检测器，甚至可以接收到最轻微的…

2023年12月19日
工具软件

充分利用 Google Bard 的 12 个技巧

您可以使用这些技巧来充分利用 Google Bard。Bard 是 Google AI 的大型语言模型，是一款功能强大的工具，可用于多种用途。它可以生成文本、翻译语言、编写不同类型…

2023年12月19日
TurnVoice：将YouTube视频的声音重新翻译替换

项目简介一个命令行工具，用于转换 (YouTube) 视频中的语音，并具有附加翻译功能。它号称可以：– 语音替换：去除人声轨道并重新组合以保留原始背景音频&#8211…

工具软件 2023年12月18日

Meta推出生成式AI音频工具AudioCraft

Meta AudioCraft 揭幕

相关推荐