字幕生成工具WhisperX

这个程序的特点是可以按照单词对齐时间戳,所以基本上生成字幕都是完整的句子。
生成结果除了srt还有json文件,里面有每一行里面单词的时间戳,可以根据需要二次整理字幕。
另外它还能识别发言人,准确率还可以。
貌似不支持Mac,而且需要NVIDIA的显卡,好在Google Colab可以运行(需要启用GPU)。

  • 使用 whisper large-v2 进行 70 倍实时转录的批量推理
  • faster-whisper 后端,对于 beam_size=5 的 large-v2 需要 <8GB gpu 内存
  • 使用wav2vec2对齐的准确词级时间戳
  • 使用来自 pyannote-audio 的说话人二值化的多说话人 ASR(说话人 ID 标签)
  • VAD 预处理,在不降低 WER 的情况下减少幻觉和批处理

有开发者写了一个可以根据YouTube Url识别YouTube字幕的Jupyter Notebook,仅供参考:

github.com/JimLiu/whisper-subtitles/blob/main/whisperx_youtube_subtitle.ipynb

项目链接

https://github.com/m-bain/whisperX

原创文章,作者:校长,如若转载,请注明出处:https://www.yundongfang.com/Yun267432.html

(0)
打赏 微信扫一扫不于多少! 微信扫一扫不于多少! 支付宝扫一扫礼轻情意重 支付宝扫一扫礼轻情意重
上一篇 2023年11月23日
下一篇 2023年11月23日

相关推荐