Fish Speech：全新的文本转语音(TTS)解决方案

2023年12月16日下午6:24 • 工具软件

项目简介

Fish Speech：全新的文本转语音(TTS)解决方案，具有高度自定义和灵活性，支持Linux和Windows系统，需要2GB的GPU内存进行推理，使用Flash-Attn进行推理和训练，支持VQGAN和Text2Semantic模型

要求

GPU内存：2GB（用于推理），24GB（用于微调）
系统：Linux（全部功能），Windows（仅推理，不支持flash-attn，不支持torch.compile）

因此，我们强烈建议Windows用户使用WSL2或docker来运行代码库。

设置

# 基本环境设置conda create -n fish-speech python=3.10conda activate fish-speechconda install pytorch torchvision torchaudio pytorch-cuda=12.1 -c pytorch -c nvidia
# 安装 flash-attn（适用于linux）pip3 install ninja && MAX_JOBS=4 pip3 install flash-attn --no-build-isolation
# 安装 fish-speechpip3 install -e .

推理（CLI）

从我们的 huggingface 仓库下载所需的 vqgan 和 text2semantic 模型。

wget https://huggingface.co/fishaudio/speech-lm-v1/raw/main/vqgan-v1.pth -O checkpoints/vqgan-v1.pthwget https://huggingface.co/fishaudio/speech-lm-v1/blob/main/text2semantic-400m-v0.1-4k.pth -O checkpoints/text2semantic-400m-v0.1-4k.pth

[可选] 从语音生成 prompt：

python tools/vqgan/inference.py -i paimon.wav --checkpoint-path checkpoints/vqgan-v1.pth

你应该能得到一个 fake.npy 文件。

从文本生成语义 token：

python tools/llama/generate.py \    --text "要转换的文本" \    --prompt-string "你的参考文本" \    --prompt-tokens "fake.npy" \    --checkpoint-path "checkpoints/text2semantic-400m-v0.1-4k.pth" \    --num-samples 2 \    --compile

该命令会在工作目录下创建 codes_N 文件，其中 N 是从 0 开始的整数。您可能希望使用 –compile 来融合 cuda 内核以实现更快的推理（~30 个 token/秒 -> ~500 个 token/秒）

从语义 token 生成人声：

python tools/vqgan/inference.py -i codes_0.npy --checkpoint-path checkpoints/vqgan-v1.pth

Rust 数据服务器

由于加载和洗牌数据集非常缓慢且占用内存，因此我们使用 rust 服务器来加载和洗牌数据集。该服务器基于 GRPC，可以通过以下方式安装

cd data_servercargo build --release

项目链接

https://github.com/fishaudio/fish-speech

原创文章，作者：校长，如若转载，请注明出处：https://www.yundongfang.com/Yun270994.html

内存推理文本

打赏

微信扫一扫不于多少！

支付宝扫一扫礼轻情意重

Flowise：轻松构建自己的APP

上一篇 2023年12月16日

VoiceFixer 2：用于语音恢复的工具包

下一篇 2023年12月16日

Napkin：文本转换为信息图表

Napkin：文本转换为信息图表 Napkin AI 是一个将文本内容转换为视觉图像的工具，旨在通过生成图表、流程图等视觉元素来加速和提高业务故事讲述的效果。使用 Napkin …

工具软件 2024年8月31日
如何在 Windows 11 上通过新闻和兴趣修复高内存使用率

使用 100% 使用率的 PC 肯定是一场噩梦，必须对此问题进行故障排除才能再次在您的系统上工作。虽然高内存使用问题在 Windows PC 中并不少见，但最近，Windows …

2024年6月13日 • Win 11
Win 11

如何使用 Windows Phone 链接复制 Android 照片中的文本

Windows 上的 Phone Link 应用程序具有多项功能，可让用户连接到智能手机并访问其内容。现在，Microsoft使用新的“文本”工具更新了该应用程序，该工具也与Sni…

2024年5月30日
ChatGPT产品层面的更新

ChatGPT产品层面的更新新的 ChatGPT 更新，支持利用 GPT-4o 进行实时的语音和视频对话。网页端和移动端全新的 UI 设计。发布 Mac 版本的 ChatGP…

工具软件 2024年5月20日
关于GPT-4o 模型更新

关于GPT-4o 模型更新它可以接受任意组合的文本、音频和图像作为输入，并生成任意组合的文本、音频和图像输出。它可以在 232 毫秒内响应音频输入，平均为 320 毫秒，这与人…

工具软件 2024年5月20日
工具软件

Adobe 发布 Firefly Image 3 模型及对应新功能

Adobe 发布 Firefly Image 3 模型及对应新功能 Adobe 发布了Firefly Image 3模型，Photoshop（测试版）也大规模更新了很多功能。包括文…

2024年5月10日
工具软件

WhatsApp将获得基于文本的状态更新的新界面以及转发和快退视频的能力

WhatsApp 通过定期更新不断改进。最近的报道表明，WhatsApp正在开发一个新的状态更新界面，为基于文本的更新提供自己的空间。此外，WhatsApp 还改进了平台上的视频播…

2024年4月6日
Excel不断更改数字：如何修复

Excel 具有此功能，它可以自动将单元格中的数字转换为特定日期。但是，如果 Excel 开始将数字更改为日期格式，这个有用的功能很快就会成为您头疼的原因！此问题可能会影响整个行或…

2024年3月31日 • 苹果Apple
工具软件

Open-Sora 开源替代 OpenAI 的 Sora 文本转视频 AI

Open-Sora 开源替代 OpenAI 的 Sora 文本转视频 AI 继今年早些时候推出 Sora 之后，OpenAI 强大的文本到视频 AI 模型以 Open-Sora 的…

2024年3月26日
工具软件

为 Claude 3、ChatGPT 和 Gemini 发布的终极 AI 提示库

为 Claude 3、ChatGPT 和 Gemini 发布的终极 AI 提示库提示是人工智能（AI）的命脉，可让您从大型语言模型中获得最佳结果。如果您正在寻找在尖端技术和 …

2024年3月15日
最新资讯

华硕主板 BIOS 更新新增 256GB DDR5 内存

华硕主板 BIOS 更新新增 256GB DDR5 内存如果您希望能够将板载内存增加到高达 256GB 的 DDR5 内存，您可能有兴趣知道华硕已经发布了其 Intel 700 …

2024年3月15日
苹果Apple

在 iPhone 上从 PDF 获取文本的 3 种方法

Apple 的实况文本功能可以识别“照片”或“相机”应用程序中的文本、手写笔记和数字，并允许您将这些信息粘贴到任何其他应用程序上。但是，当您处理 PDF 并想从中提取文本时，您会怎…

2024年2月22日
如何使用截图工具从图像中编辑和提取文本 Windows 11

与许多其他应用程序一样，Microsoft正在更新和简化Windows的本机屏幕截图应用程序Snipping Tool，并提供一些新功能。“文本操作”是一项基于 OCR 的新功能，…

2024年2月2日 • Win 11
在 iPhone 上为文本添加下划线的 11 种方法

在计算机上进行文本编辑非常简单。您可以使用 Command（在 CTRL 上）+ U 键盘快捷键为部分文本添加下划线。不过，在你的手机上，情况有点不同。由于您在手机上处理很多应用程…

2024年1月19日 • 苹果Apple
工具软件

Google Gemini Pro 与 OpenAI ChatGPT-4 AI 模型比较

自去年年底推出并随后在 Google Bard 中推出以来，谷歌最新的 AI 模型 Gemini Pro 是 OpenAI 的 ChatGPT 的主要竞争对手，提供非常相似的多模态…

2024年1月2日
TextDiffuser-2：为文本渲染释放语言模型的力量

TextDiffuser-2：为文本渲染释放语言模型的力量可以稳定在扩散模型中生成指定位置和风格的英文文本，它是借助的微调后的大语言模型来规划文本布局，以及编码文本的位置。

工具软件 2023年12月26日
工具软件

无法检测的 AI 评论：功能强大、易于使用的反 AI 检测器

多亏了人工智能工具，写作从未如此简单。无论您是想批量创建短篇文章还是长篇文章，您都可以在几秒钟内生成最令人惊叹的文本。但是，您的一些读者使用 AI 检测器，甚至可以接收到最轻微的…

2023年12月19日
工具软件

充分利用 Google Bard 的 12 个技巧

您可以使用这些技巧来充分利用 Google Bard。Bard 是 Google AI 的大型语言模型，是一款功能强大的工具，可用于多种用途。它可以生成文本、翻译语言、编写不同类型…

2023年12月19日
工具软件

如何设置 Google Gemini Pro API 密钥和 AI 模型 – 初学者指南

正如本月早些时候宣布的那样，谷歌提供了新的Gemini Pro人工智能开发人员，企业和个人使用。如果您有兴趣创建 AI 驱动的应用程序、自动化和服务，您会很高兴知道 Gemini …

2023年12月16日
工具软件

Google Groups 正在放弃对 Usenet 的支持，这是一件好事

谷歌宣布本周，它计划切断与Google Groups中Usenet的联系。自 2024 年 2 月 22 日起，Google 网上论坛用户无法再向 Usenet 群组发布内容、订阅…

2023年12月16日
谷歌Google

Google Imagen 2 文本到图像 AI 艺术生成器现已在 Vertex AI 上推出

Google Cloud 最近升级了其图像生成功能，推出了 Imagen 2，这是一种文本到图像的技术，现在可供 Vertex AI 客户使用。该技术的新版本提供了改进的图像质量，…

2023年12月15日
苹果Apple

iOS 17.2：如何禁用 iPhone 内联预测文本

Apple 在 iOS 17 中为 iPhone 添加了内联预测文本，但没有包括独立于键盘上方的预测建议将其关闭的方法。在最新的 iOS 17.2 更新中，情况发生了变化。苹果已…

2023年12月14日
工具软件

Google Imagen 2 文本到图像 AI 艺术生成器现已在 Vertex AI 上推出

Google Cloud 最近升级了其图像生成功能，推出了 Imagen 2，这是一种文本到图像的技术，现在可供 Vertex AI 客户使用。该技术的新版本提供了改进的图像质量，…

2023年12月14日
微软Microsoft

Windows 11 的记事本在状态栏上获得字符数

Windows 11 的记事本得到了一些改进。这包括状态栏上的字符数，以及从资源管理器访问它的快速方法。 Windows中的纯文本编辑器已经存在了近40年，但Microsoft直到…

2023年12月10日
绕过 AI 内容检测器的 10 种最佳无法检测的 AI 写作工具

生成式人工智能是内容和文案写作领域的下一件大事，但这并不意味着每个人都乐于收到明显由人工智能撰写的文章。一些学校和企业主甚至使用人工智能检测器——寻找人工智能写作特征的工具——并会…

2023年12月8日 • 工具软件