Nvidia 和 Mozilla 发布最新版本的 Common Voice Dataset-云东方

1618257806_common-voice_story

Mozilla Common Voice是一项旨在“使语音识别领域民主化和变革”的倡议。几年前在 Mozilla 基金会的保护下开始，现在与 Nvidia 合作，该计划允许志愿者为语音合成和识别软件的世界上最大的开放数据语音数据集——通用语音数据集做出贡献。

今天，公共语音数据集的最新版本公开了。它为表格带来了一些受欢迎的补充。首先，该语料库现在拥有超过 13,000 小时的众包语音数据。与之前版本相比，最新版本带来了 4,622 小时的新鲜音频数据。还添加了 16 种新语言，即巴萨语、斯洛伐克语、北库尔德语、保加利亚语、哈萨克语、巴什基尔语、加利西亚语、维吾尔语、亚美尼亚语、白俄罗斯语、乌尔都语、瓜拉尼语、塞尔维亚语、乌兹别克语、阿塞拜疆语和豪萨语。这使数据集中的语言总数达到 76 种。总的来说，数据集现在拥有超过 182,000 个独特的声音，这是过去六个月贡献者社区增长 25% 的直接结果。

1627670669_en-dataset-release-static-graphic-1x

Common Voice 数据集发布时间为 13,905 小时，比上一版本增加了 4,622 小时。

向 Common Voice 数据集引入了 16 种新语言：巴萨语、斯洛伐克语、北库尔德语、保加利亚语、哈萨克语、巴什基尔语、加利西亚语、维吾尔语、亚美尼亚语、白俄罗斯语、乌尔都语、瓜拉尼语、塞尔维亚语、乌兹别克语、阿塞拜疆语、豪萨语。

总小时数排名前五位的语言是英语（2,630 小时）、基尼亚卢旺达语（2,260 小时）、德语（1,040 小时）、加泰罗尼亚语（920 小时）和世界语（840 小时）。

百分比增长最多的语言是泰语（增长近 20 倍，从 12 小时到 250 小时）、卢干达语（增长 9 倍，从 8 小时到 80 小时）、世界语（增长超过 7 倍，从 100 小时到 840 小时）和泰米尔语（增长超过 8 倍，从 24 小时到 220 小时）。

该数据集现在拥有超过 182,000 个独特的声音，在短短六个月内贡献者社区增长了 25%。

如果您有兴趣为 Common Voice 数据集做出贡献，请转到此链接。来自当前语料库的样本可以在同一个链接上找到。可以在此GitHub 存储库中找到特定于下载和使用数据集的元数据和说明。作为 Mozilla 和Nvidia合作的一部分，在此数据集和其他公共数据集上训练的模型可通过Nvidia NeMo免费获得，这是 Nvidia 用于构建语音识别和对话模型的工具包。

原创文章，作者：校长，如若转载，请注明出处：https://www.yundongfang.com/Yun62932.html