今天,我们宣布在用于语音的生成AI方面取得突破。我们开发了Voicebox,这是一种最先进的AI模型,可以执行语音生成任务 – 如编辑,采样和风格化 – 它没有经过专门训练通过上下文学习来完成。
Voicebox 可以生成高质量的音频剪辑并编辑预先录制的音频(例如移除汽车喇叭或狗吠),同时保留音频的内容和风格。该模型也是多语言的,可以用六种语言生成语音。
未来,像 Voicebox 这样的多用途生成 AI 模型可以为元宇宙中的虚拟助手和非玩家角色提供自然的声音。它们可以让视障人士听到人工智能用他们的声音朗读的朋友的书面信息,为创作者提供新的工具来轻松创建和编辑视频的音轨等等。
语音盒的多功能性支持各种任务,包括:
上下文中的文本到语音转换合成:使用短至两秒长的音频示例,Voicebox 可以匹配音频样式并将其用于文本到语音转换生成。
语音编辑和降噪:Voicebox 可以重新创建被噪音打断的语音部分或替换说错的单词,而无需重新录制整个语音。例如,您可以识别被狗吠打断的语音片段,对其进行裁剪,并指示 Voicebox 重新生成该片段,就像用于音频编辑的橡皮擦一样。
跨语言风格迁移:当给定某人的语音样本和英语、法语、德语、西班牙语、波兰语或葡萄牙语的文本段落时,Voicebox 可以生成任何这些语言的文本阅读,即使示例语音和文本是不同的语言。此功能将来可用于帮助人们以自然、真实的方式进行交流,即使他们不会说相同的语言。
多样化的语音采样:从不同的数据中学习后,Voicebox可以生成更能代表人们在现实世界和上面列出的六种语言中说话方式的语音。
Voicebox是我们生成式AI研究向前迈出的重要一步,我们期待继续在音频领域进行探索,并了解其他研究人员如何在我们的工作基础上再接再厉。
原创文章,作者:校长,如若转载,请注明出处:https://www.yundongfang.com/Yun234217.html