介绍语音盒：用于语音生成的最通用的 AI

2023年6月17日上午10:53 • 最新资讯

语音盒是一种生成式 AI 模型，可以帮助进行音频编辑、采样和样式设置。
这种技术将来可以用来帮助创作者轻松编辑音轨，让视障人士听到朋友用他们的声音写的信息，并使人们能够用自己的声音说任何外语。

今天，我们宣布在用于语音的生成AI方面取得突破。我们开发了Voicebox，这是一种最先进的AI模型，可以执行语音生成任务 – 如编辑，采样和风格化 – 它没有经过专门训练通过上下文学习来完成。

Voicebox 可以生成高质量的音频剪辑并编辑预先录制的音频（例如移除汽车喇叭或狗吠），同时保留音频的内容和风格。该模型也是多语言的，可以用六种语言生成语音。

未来，像 Voicebox 这样的多用途生成 AI 模型可以为元宇宙中的虚拟助手和非玩家角色提供自然的声音。它们可以让视障人士听到人工智能用他们的声音朗读的朋友的书面信息，为创作者提供新的工具来轻松创建和编辑视频的音轨等等。

语音盒的多功能性支持各种任务，包括：

上下文中的文本到语音转换合成：使用短至两秒长的音频示例，Voicebox 可以匹配音频样式并将其用于文本到语音转换生成。

语音编辑和降噪：Voicebox 可以重新创建被噪音打断的语音部分或替换说错的单词，而无需重新录制整个语音。例如，您可以识别被狗吠打断的语音片段，对其进行裁剪，并指示 Voicebox 重新生成该片段，就像用于音频编辑的橡皮擦一样。

跨语言风格迁移：当给定某人的语音样本和英语、法语、德语、西班牙语、波兰语或葡萄牙语的文本段落时，Voicebox 可以生成任何这些语言的文本阅读，即使示例语音和文本是不同的语言。此功能将来可用于帮助人们以自然、真实的方式进行交流，即使他们不会说相同的语言。

多样化的语音采样：从不同的数据中学习后，Voicebox可以生成更能代表人们在现实世界和上面列出的六种语言中说话方式的语音。

Voicebox是我们生成式AI研究向前迈出的重要一步，我们期待继续在音频领域进行探索，并了解其他研究人员如何在我们的工作基础上再接再厉。

https://u.jd.com/giEEi0x

https://u.jd.com/gsEjXuU

原创文章，作者：校长，如若转载，请注明出处：https://www.yundongfang.com/Yun234217.html

文本编辑音频

打赏

微信扫一扫不于多少！

支付宝扫一扫礼轻情意重

Steam 桌面客户端收到来自 Valve 的重大更新

上一篇 2023年6月17日上午7:15

帮助创作者在 Facebook 上被发现并赚钱

下一篇 2023年6月17日

Napkin：文本转换为信息图表

Napkin：文本转换为信息图表 Napkin AI 是一个将文本内容转换为视觉图像的工具，旨在通过生成图表、流程图等视觉元素来加速和提高业务故事讲述的效果。使用 Napkin …

工具软件 2024年8月31日
Win 11

如何使用 Windows Phone 链接复制 Android 照片中的文本

Windows 上的 Phone Link 应用程序具有多项功能，可让用户连接到智能手机并访问其内容。现在，Microsoft使用新的“文本”工具更新了该应用程序，该工具也与Sni…

2024年5月30日
已解决：Microsoft商店中缺少Realtek音频控制台

https://u.jd.com/kz2KLti 我们都使用Microsoft商店作为应用程序的一站式商店，但是当Realtek音频控制台丢失时，它引出了一个问题，这是商店问题还是…

2024年5月29日 • 微软Microsoft
Spotify 无损（几乎）在这里，但不要抱有希望！

经过多年的失望等待，Spotify用户以研究的怀疑态度看待有关Spotify无损音频的大多数泄漏和猜测。谁能责怪他们？自宣布以来已经三年了，几乎没有关于确切发布日期的消息！因此，每…

2024年5月20日 • 工具软件
ChatGPT产品层面的更新

ChatGPT产品层面的更新新的 ChatGPT 更新，支持利用 GPT-4o 进行实时的语音和视频对话。网页端和移动端全新的 UI 设计。发布 Mac 版本的 ChatGP…

工具软件 2024年5月20日
关于GPT-4o 模型更新

关于GPT-4o 模型更新它可以接受任意组合的文本、音频和图像作为输入，并生成任意组合的文本、音频和图像输出。它可以在 232 毫秒内响应音频输入，平均为 320 毫秒，这与人…

工具软件 2024年5月20日
工具软件

Adobe 发布 Firefly Image 3 模型及对应新功能

Adobe 发布 Firefly Image 3 模型及对应新功能 Adobe 发布了Firefly Image 3模型，Photoshop（测试版）也大规模更新了很多功能。包括文…

2024年5月10日
工具软件

CaiCai：系统级 AI 文字编辑应用

CaiCai：系统级 AI 文字编辑应用 CaiCai 开发的一个文字编辑和修改应用 Haye。支持在系统的任何地方拉起，对所选内容进行优化、翻译、总结和修改。官网设计也很好看…

2024年5月10日
工具软件

谷歌发布了一堆AI能力和升级

谷歌发布了一堆AI能力和升级 Google Next 2024上周放出了不少狠货，这次 Open AI 没能够压下去热度。首先是 Gemini Pro 1.5 进行了一大波升级，…

2024年5月10日
无法在iPhone中发送音频消息：这是修复

无法在 iPhone 上从 iMessage 发送音频消息？音频消息始终优先于普通短信。它不仅速度快，而且比输入消息更方便。如果您无法发送音频消息，请不要担心。这些简短且易于实施的…

2024年5月3日 • 苹果Apple
如何在 Android 上编辑 ChatGPT 提示

ChatGPT 的网络版本在与 AI 机器人聊天时提供了全方位的选项。但是在智能手机上使用它要方便得多，这就是为什么它的智能手机应用程序一直在快速追赶。ChatGPT 的 Andr…

2024年5月3日 • 工具软件
如何使用 PowerToys 在 Windows 上查看音频文件

PowerToys 中的 Peek 实用程序现在支持预览音频文件。从 PowerToys 版本 0.80.0 开始，您将能够查看多种音频文件格式的内容，而无需在其专用应用程序中打开…

2024年4月11日 • Win 11
工具软件

WhatsApp将获得基于文本的状态更新的新界面以及转发和快退视频的能力

WhatsApp 通过定期更新不断改进。最近的报道表明，WhatsApp正在开发一个新的状态更新界面，为基于文本的更新提供自己的空间。此外，WhatsApp 还改进了平台上的视频播…

2024年4月6日
Excel不断更改数字：如何修复

Excel 具有此功能，它可以自动将单元格中的数字转换为特定日期。但是，如果 Excel 开始将数字更改为日期格式，这个有用的功能很快就会成为您头疼的原因！此问题可能会影响整个行或…

2024年3月31日 • 苹果Apple
苹果Apple

如何在iPhone照片应用程序上编辑视频

如何在iPhone照片应用程序上编辑视频在不断发展的数字媒体世界中，视频的质量可以产生重大影响。将 iPhone 放在口袋里，您可以使用一个非常强大的工具来捕获和编辑视频，这些视…

2024年3月29日
苹果Apple

如何在iPhone照片应用程序上编辑视频

如何在iPhone照片应用程序上编辑视频在不断发展的数字媒体世界中，视频的质量可以产生重大影响。将 iPhone 放在口袋里，您可以使用一个非常强大的工具来捕获和编辑视频，这些视…

2024年3月28日
工具软件

5 种 AI 工具可改善您的视频编辑并节省时间

5 种 AI 工具可改善您的视频编辑并节省时间如果您正在寻找减少编辑视频时间的方法，您可能会对五种 AI 工具感兴趣，它们不仅可以改善您的视频编辑工作流程，还可以节省您的时间。您…

2024年3月26日
工具软件

Open-Sora 开源替代 OpenAI 的 Sora 文本转视频 AI

Open-Sora 开源替代 OpenAI 的 Sora 文本转视频 AI 继今年早些时候推出 Sora 之后，OpenAI 强大的文本到视频 AI 模型以 Open-Sora 的…

2024年3月26日
工具软件

Denon DHT-S218杜比全景声条形音箱推出

Denon DHT-S218杜比全景声条形音箱推出 Denon推出DHT-S218杜比全景声条形音箱（Dolby Atmos Sound Bar），这是一种高级音频解决方案，旨在将…

2024年3月26日
VoiceCraft：超过XTTS的语音模型

VoiceCraft：超过XTTS的语音模型 VOICECRAFT模型介绍： VOICECRAFT是一个先进的神经编解码语言模型，专门用于语音编辑和零样本文本到语音（TTS）任务。…

工具软件 2024年3月26日
工具软件

如何在 Mac 上免费编辑 PDF 文件

如何在 Mac 上免费编辑 PDF 文件如果您需要编辑 PDF 文件，但不想放弃辛苦赚来的现金并购买第三方应用程序。如果您使用的是 Apple Mac 计算机，您会很高兴知道 m…

2024年3月15日
工具软件

为 Claude 3、ChatGPT 和 Gemini 发布的终极 AI 提示库

为 Claude 3、ChatGPT 和 Gemini 发布的终极 AI 提示库提示是人工智能（AI）的命脉，可让您从大型语言模型中获得最佳结果。如果您正在寻找在尖端技术和 …

2024年3月15日
苹果Apple

在 iPhone 上从 PDF 获取文本的 3 种方法

Apple 的实况文本功能可以识别“照片”或“相机”应用程序中的文本、手写笔记和数字，并允许您将这些信息粘贴到任何其他应用程序上。但是，当您处理 PDF 并想从中提取文本时，您会怎…

2024年2月22日
如何在iPhone上编辑主屏幕页面

Apple 允许您通过重新排列主屏幕页面并随时随意删除它们来快速更改主屏幕。这样，您可以轻松地从主屏幕页面隐藏多个应用程序和小部件，而无需拖动它们并逐个删除它们。在这篇文章中，我们…

2024年2月14日 • 苹果Apple
如何使用截图工具从图像中编辑和提取文本 Windows 11

与许多其他应用程序一样，Microsoft正在更新和简化Windows的本机屏幕截图应用程序Snipping Tool，并提供一些新功能。“文本操作”是一项基于 OCR 的新功能，…

2024年2月2日 • Win 11

介绍语音盒：用于语音生成的最通用的 AI

相关推荐