通过Whisper模型将YouTube播放列表中的视频转换成高质量文字稿的项目

2023年11月23日下午3:40 • 工具软件

一个通过Whisper模型将YouTube播放列表中的视频转换成高质量文字稿的项目。

这个基于 Python 的工具旨在将 YouTube 视频和播放列表转录为文本。它集成了多种技术，例如用于转录的 Fast-Whisper、用于自然语言处理的 SpaCy 以及用于 GPU 加速的 CUDA，旨在高效处理视频内容。该脚本能够处理单个视频和整个播放列表，输出准确的文字记录和元数据。项目核心内容：

1、YouTube下载：使用pytube下载YouTube视频或播放列表的音频。
2、音频转录：利用faster_whisper.WhisperModel将音频转换成文字。
3、NLP处理：可选地整合SpaCy，用于改进句子分割，提高文字稿的可读性和结构。
4、CUDA加速：实现CUDA支持，用于兼容硬件的处理速度提升。

这个工具适用于内容分析、辅助创建视频字幕和封闭字幕、教育目的以及视频内容的存档和检索。

功能概述

核心组件

YouTube 下载：使用 pytube 从 YouTube 视频或播放列表下载音频。
音频转录：利用 faster_whisper.WhisperModel 将音频转换为文本。该模型是 OpenAI 的 Whisper 的变体，旨在提高速度和准确性。
NLP 处理：可以选择集成 SpaCy 以进行复杂的句子分割，从而增强转录本的可读性和结构。
CUDA 加速：实现对 GPU 利用率的 CUDA 支持，提高兼容硬件的处理速度。

详细工作流程

初始化：
- 该脚本首先根据 convert_single_video 标志确定是处理单个视频还是播放列表。
- 它设置必要的目录来存储下载的音频、文字记录和元数据。
环境配置：
- 将 CUDA Toolkit 路径添加到系统环境以供 GPU 使用。
- 根据 CPU 核心数配置用于转录的工作线程数量。
视频处理：
- 对于播放列表中的每个视频或单个视频，脚本都会下载音频。
- 它确保每个音频文件的唯一命名以避免覆盖。
转录：
- 音频文件被传递到 WhisperModel 进行转录。
- 如果可用，该脚本会处理 GPU 加速，否则默认为 CPU。
- 使用 SpaCy 或基于自定义正则表达式的拆分器将转录结果拆分为句子。
元数据生成：
- 除了脚本之外，脚本还会生成元数据，包括每个片段的时间戳和置信度分数。
输出：
- 记录以纯文本、CSV 和 JSON 格式保存，提供原始记录和结构化元数据。
显示/读取：
- 为了使文字记录更易于阅读，提供了一个 html 文件 transcript_reader.html ，它可以进一步清理并提供“阅读器模式”，您可以在其中选择字体、文本大小、文本宽度和切换深色模式。只需在浏览器中打开此 html 文件，然后粘贴 generated_transcript_combined_texts 文件夹中生成的文件之一的转录文本即可。

项目链接

https://github.com/Dicklesworthstone/bulk_transcribe_youtube_videos_from_playlist

原创文章，作者：校长，如若转载，请注明出处：https://www.yundongfang.com/Yun267393.html

播放列表视频音频

打赏

微信扫一扫不于多少！

支付宝扫一扫礼轻情意重

GPT4 paper assistant: 用GPT-4建立的论文助手机器人项目

上一篇 2023年11月23日

Open Assistant: 本地版YORG开放助手系统

下一篇 2023年11月23日

阿里开源支持视频理解的多模态 LLM Qwen2-VL

阿里开源支持视频理解的多模态 LLM Qwen2-VL 国内现在还没有特别好的多模态闭源模型尤其是支持视频理解的，阿里这就开源了。不过最大的Qwen2-VL 72B 没有开源，只开…

工具软件 2024年9月20日
工具软件

Morphic Studio：为创建受控视频做的 AI 视频平台

Morphic Studio：为创建受控视频做的 AI 视频平台 Morphic Studio 包括 Canvas 和 Compose 功能，Canvas 是一个全面的故事板和生成…

2024年8月31日
工具软件

Clapper app：AI 剪辑工具

Clapper app：AI 剪辑工具非常强的网页端 AI 生成和视频剪辑工具。接入了 AI 视频需要的各种 API，包括图片生成、LLM、语音生成、音乐生成、视频生成。时间轴直…

2024年8月31日
iPhone相机在室内灯光下闪烁/闪烁：修复

您的 iPhone 相机在室内灯光下闪烁或闪烁太多吗？您用 iPhone 拍摄的视频看起来不太好，因为灯光会亮起。您在视频上看到的闪烁是因为刷新率的差异。这是不正常的，有一些方法可…

2024年6月1日 • 苹果Apple
已解决：Microsoft商店中缺少Realtek音频控制台

https://u.jd.com/kz2KLti 我们都使用Microsoft商店作为应用程序的一站式商店，但是当Realtek音频控制台丢失时，它引出了一个问题，这是商店问题还是…

2024年5月29日 • 微软Microsoft
Spotify 无损（几乎）在这里，但不要抱有希望！

经过多年的失望等待，Spotify用户以研究的怀疑态度看待有关Spotify无损音频的大多数泄漏和猜测。谁能责怪他们？自宣布以来已经三年了，几乎没有关于确切发布日期的消息！因此，每…

2024年5月20日 • 工具软件
工具软件

viva：首个可供使用的 Dit 架构视频生成工具

viva：首个可供使用的 Dit 架构视频生成工具海外产品 viva 发布了首个开放给全部用户使用的 Sora 同架构视频生成模型，而且现阶段免费。支持文本生成视频、图片生成视频…

2024年5月20日
工具软件

生数科技发布Vidu 视频生成模型

生数科技发布Vidu 视频生成模型生数科技不声不响整了个大活。发布 Vidu 视频生成模型，支持长达 16 秒 1080P 视频直接生成。从演示视频来看一致性、运动幅度都达到了…

2024年5月10日
Captions：AI 自动视频剪辑工具

Captions：AI 自动视频剪辑工具 Captions 这个产品可以自动识别超长视频的有价值判断并且自动剪辑成多条适合传播的短视频。生成的短视频可以选择对应的字幕模板，并且支…

工具软件 2024年5月10日
360 AI 浏览器支持 Youtube 视频

360 AI 浏览器支持 Youtube 视频 LLM 的出现让英语知识的获取变得比以前简单非常多，尤其是文字类的内容，翻译以及总结门槛都低了非常多。但是很多知识都在视频里面，我…

工具软件 2024年5月10日
工具软件

谷歌发布了一堆AI能力和升级

谷歌发布了一堆AI能力和升级 Google Next 2024上周放出了不少狠货，这次 Open AI 没能够压下去热度。首先是 Gemini Pro 1.5 进行了一大波升级，…

2024年5月10日
工具软件

Open AI 发布了语音克隆方案及Sora艺术家测试视频

Open AI 发布了语音克隆方案及Sora艺术家测试视频多模态的任何一环Open AI都想做啊，这个语音克隆的功能也上了，声音和面部以及身体数据是未来内容生产能力爆炸之后，每个…

2024年5月10日
无法在iPhone中发送音频消息：这是修复

无法在 iPhone 上从 iMessage 发送音频消息？音频消息始终优先于普通短信。它不仅速度快，而且比输入消息更方便。如果您无法发送音频消息，请不要担心。这些简短且易于实施的…

2024年5月3日 • 苹果Apple
工具软件

Adobe 的 VideoGigaGAN 项目可以将模糊的视频变成高清

Adobe 的人们开发了一种生成式 AI 模型，该模型很快就会让您将视频升级到原始分辨率的八倍。Adobe在最近发表的一篇名为VideoGigaGAN的论文中声称，该模型远远优于过…

2024年4月25日
如何使用 PowerToys 在 Windows 上查看音频文件

PowerToys 中的 Peek 实用程序现在支持预览音频文件。从 PowerToys 版本 0.80.0 开始，您将能够查看多种音频文件格式的内容，而无需在其专用应用程序中打开…

2024年4月11日 • Win 11
工具软件

WhatsApp将获得基于文本的状态更新的新界面以及转发和快退视频的能力

WhatsApp 通过定期更新不断改进。最近的报道表明，WhatsApp正在开发一个新的状态更新界面，为基于文本的更新提供自己的空间。此外，WhatsApp 还改进了平台上的视频播…

2024年4月6日
苹果Apple

如何在iPhone照片应用程序上编辑视频

如何在iPhone照片应用程序上编辑视频在不断发展的数字媒体世界中，视频的质量可以产生重大影响。将 iPhone 放在口袋里，您可以使用一个非常强大的工具来捕获和编辑视频，这些视…

2024年3月29日
苹果Apple

如何在iPhone照片应用程序上编辑视频

如何在iPhone照片应用程序上编辑视频在不断发展的数字媒体世界中，视频的质量可以产生重大影响。将 iPhone 放在口袋里，您可以使用一个非常强大的工具来捕获和编辑视频，这些视…

2024年3月28日
苹果Apple

如何加快iPad的使用速度

如何加快iPad的使用速度寻找更快、更智能地完成工作的方法几乎是每个人的首要任务。iPad 是每个人的首选小工具，从忙碌的专业人士到创意人士和学生，它提供的远不止眼前所见。幸运的…

2024年3月26日
工具软件

5 种 AI 工具可改善您的视频编辑并节省时间

5 种 AI 工具可改善您的视频编辑并节省时间如果您正在寻找减少编辑视频时间的方法，您可能会对五种 AI 工具感兴趣，它们不仅可以改善您的视频编辑工作流程，还可以节省您的时间。您…

2024年3月26日
工具软件

Open-Sora 开源替代 OpenAI 的 Sora 文本转视频 AI

Open-Sora 开源替代 OpenAI 的 Sora 文本转视频 AI 继今年早些时候推出 Sora 之后，OpenAI 强大的文本到视频 AI 模型以 Open-Sora 的…

2024年3月26日
工具软件

Stable Video 3D 从单个图像创建动画

Stable Video 3D 从单个图像创建动画如果您有兴趣使用新的 Stable Video 3D（Stability AI 发布的工具）从单个图像创建 3D 外观的视频，并…

2024年3月26日
苹果Apple

20 iPhone 15 和 15 Pro 相机提示和技巧

20 iPhone 15 和 15 Pro 相机提示和技巧 iPhone 15 系列再次提升了移动摄影和摄像的标准，其先进的相机功能有望将每个用户转变为熟练的内容创作者。无论你是经…

2024年3月26日
工具软件

Denon DHT-S218杜比全景声条形音箱推出

Denon DHT-S218杜比全景声条形音箱推出 Denon推出DHT-S218杜比全景声条形音箱（Dolby Atmos Sound Bar），这是一种高级音频解决方案，旨在将…

2024年3月26日
Mora：借助多智能体系统实现通用视频生成

Mora：借助多智能体系统实现通用视频生成微软的一个视频生成项目 Mora，利用 Agents 来复原 Sora 的能力，基本还原了 Sora 所有的能力，目前支持生成 1024…

工具软件 2024年3月26日

通过Whisper模型将YouTube播放列表中的视频转换成高质量文字稿的项目

功能概述

核心组件

详细工作流程

项目链接

相关推荐