适用于实时应用程序的易于使用、低延迟的语音转文本库
RealtimeSTT 监听麦克风并将语音转录为文本。
它非常适合:
- 语音助手
- 需要快速、精确的语音到文本转换的应用程序
特征
- 语音活动检测:自动检测您何时开始和停止说话。
- 实时转录:将语音实时转换为文本。
- 唤醒词激活:可以在检测到指定的唤醒词时激活。
提示:查看 RealtimeTTS(该库的输出对应项)以了解文本转语音功能。它们共同形成了围绕大型语言模型的强大实时音频包装器。
该库使用:
- 语音活动检测
- WebRTCVAD 用于初始语音活动检测。
- SileroVAD 可实现更准确的验证。
- 语音转文本
- Faster_Whisper 用于即时(GPU 加速)转录。
- 唤醒词检测
- 用于唤醒词检测的豪猪。
这些组件代表了尖端应用的“行业标准”,为构建高端解决方案提供了最现代、最有效的基础。
pip install RealtimeSTT
这将安装所有必要的依赖项,包括仅支持 CPU 的 PyTorch 版本。
尽管可以仅通过 CPU 安装来运行 RealtimeSTT(在本例中使用“tiny”或“base”等小型模型),但您将获得更好的体验:
GPU 支持 CUDA(推荐)
GPU 优化安装需要额外的步骤。建议需要更好性能并拥有兼容 NVIDIA GPU 的用户执行这些步骤。
注意:要检查您的 NVIDIA GPU 是否支持 CUDA,请访问官方 CUDA GPU 列表。
要通过 CUDA 使用具有 GPU 支持的 RealtimeSTT,请按照以下步骤操作:
-
安装 NVIDIA CUDA 工具包 11.8:
- 访问 NVIDIA CUDA 工具包存档。
- 选择版本 11。
- 下载并安装软件。
-
安装适用于 CUDA 11.x 的 NVIDIA cuDNN 8.7.0:
- 访问 NVIDIA cuDNN 档案。
- 单击“下载适用于 CUDA 11.x 的 cuDNN v8.7.0(2022 年 11 月 28 日)”。
- 下载并安装软件。
-
安装 ffmpeg:
您可以从 ffmpeg 网站下载适用于您的操作系统的安装程序。
或者使用包管理器:
在 Ubuntu 或 Debian 上:
sudo apt update && sudo apt install ffmpeg
在 Arch Linux 上:
sudo pacman -S ffmpeg
在 MacOS 上使用 Homebrew (https://brew.sh/):
brew install ffmpegbr
在 Windows 上使用 Chocolatey (https://chocolatey.org/):
choco install ffmpegbr
在 Windows 上使用 Scoop (https://scoop.sh/):
scoop install ffmpegbr
4. 安装支持 CUDA 的 PyTorch:
pip uninstall torch
pip install torch==2.0.1+cu118 torchaudio==2.0.2 --index-url https://download.pytorch.org/whl/cu118
项目链接
https://github.com/KoljaB/RealtimeSTT
原创文章,作者:校长,如若转载,请注明出处:https://www.yundongfang.com/Yun267406.html