Whisper架构是一种简单的端到端方法,作为编码器-解码器变压器实现。输入音频被分成 30 秒的块,转换为 log-Mel 频谱图,然后传递到编码器中。训练解码器来预测相应的文本标题,并与指示单个模型执行语言识别、短语级时间戳、多语言语音听录和英语语音翻译等任务的特殊标记混合在一起。
其他现有方法经常使用更小、更紧密配对的音频-文本训练数据集,1 2,3或使用广泛但无监督的音频预训练。4,5,6由于Whisper是在庞大而多样化的数据集上进行训练的,并且没有针对任何特定数据集进行微调,因此它无法击败专门研究LibriSpeech性能的模型,LibriSpeech性能是语音识别领域著名的竞争基准。然而,当我们在许多不同的数据集中测量Whisper的零镜头性能时,我们发现它比这些模型更强大,误差少50%。
Whisper的音频数据集中约有三分之一是非英语的,它的任务是用原始语言转录或翻译成英语。我们发现这种方法在学习语音到文本翻译方面特别有效,并且在CoVoST2到英语翻译零镜头上优于监督SOTA。
我们希望Whisper的高精度和易用性将允许开发人员将语音界面添加到更广泛的应用程序中。
原创文章,作者:校长,如若转载,请注明出处:https://www.yundongfang.com/Yun237428.html