基于Whisper-large-v3语音模型的快速转录,使用Transformers、Optimum 和 flash-attn 引擎,能在不到98秒的时间内转录5小时的音频,在Google Colab T4 GPU上进行的基准测试显示,使用不同优化方式可以显著减少音频转录时间。提供了命令行界面(CLI),可通过pipx安装,支持快速转录和不同模型的选择
测试基准
Optimisation type | Time to Transcribe (150 mins of Audio) |
---|---|
Transformers (fp32 ) |
~31 (31 min 1 sec) |
Transformers (fp16 + batching [24] + bettertransformer ) |
~5 (5 min 2 sec) |
Transformers (fp16 + batching [24] + Flash Attention 2 ) |
~2 (1 min 38 sec) |
distil-whisper (fp16 + batching [24] + bettertransformer ) |
~3 (3 min 16 sec) |
distil-whisper (fp16 + batching [24] + Flash Attention 2 ) |
~1 (1 min 18 sec) |
Faster Whisper (fp16 + beam_size [1] ) |
~9.23 (9 min 23 sec) |
Faster Whisper (8-bit + beam_size [1] ) |
~8 (8 min 15 sec) |
通过您的终端进行极快的转录!
我们添加了 CLI 来实现快速转录。使用方法如下:
使用 pipx 安装 insanely-fast-whisper :
pipx install insanely-fast-whisper
从计算机上的任何路径运行推理:
insanely-fast-whisper --file-name <filename or URL>
您也可以从此 CLI 运行 Whisper-large-v3 w/ Flash Attention 2:
insanely-fast-whisper --file-name <filename or URL> --flash True
您也可以直接从此 CLI 运行 distil-whisper:
insanely-fast-whisper --model-name distil-whisper/large-v2 --file-name <filename or URL>
不想安装 insanely-fast-whisper
?只需使用 pipx run
:
pipx run insanely-fast-whisper --file-name <filename or URL>
注意:CLI 是固定的,目前仅适用于 Nvidia GPU。请务必检查默认设置和可以使用的选项列表,以最大限度地提高转录吞吐量。运行 insanely-fast-whisper --help
或 pipx run insanely-fast-whisper --help
以获取所有 CLI 参数和默认值。
项目链接
https://github.com/chenxwh/insanely-fast-whisper
原创文章,作者:校长,如若转载,请注明出处:https://www.yundongfang.com/Yun267389.html