如何使用Node.js，ChatGPT，ElevenLabs和LangChain构建一个会说话的个人AI助手

2023年10月24日下午10:32 • 工具软件

How-to-build-a-speaking-AI-assistant-using-Node.js-ChatGPT-ElevenLabs-and-LangChain-e1698137974925.webp

有兴趣使用Node.js，OpenAI Whisper和ChatGPT，ElevenLabs和LangChain的组合来构建自己的AI助手，包括语音和个性吗？本指南提供了有关如何入门的更多见解，并提供了开发人员文摘的视频，该视频向您展示了如何使用 Node.js 作为主要平台，在短短 9 分钟内结合不同的技术来创建说话的 AI 助手。

从本质上讲，Node.js使JavaScript能够用于服务器端脚本，统一客户端和服务器的编程语言，并使开发人员更容易构建全栈应用程序。Node.js 是一个运行时环境，允许您在服务器端执行 JavaScript 代码。与在浏览器中运行的客户端JavaScript不同，Node.js是为在Windows，macOS和Linux等各种平台上运行而构建的，通常用于构建后端服务或API。

Node.js 基于 Google 的 V8 JavaScript 引擎构建，并使用事件驱动的非阻塞 I/O 模型，使其对可扩展的应用程序非常高效。它有一个丰富的库和框架生态系统，可通过其包管理器npm（节点包管理器）获得，可用于扩展其功能。

使用 Node 构建个人 AI 助手.js

使用正确的工具和一点编码知识，您可以创建一个助手，它可以收听您的命令，理解它们，并以自然的、类似人类的声音做出响应。本文将指导您完成使用 OpenAI API、ElevenLabs 和 Node.js 设置语音助手的过程。

ElevenLabs 是一家语音 AI 公司，致力于创建逼真、多功能和上下文感知的 AI 音频。它们能够以 20 多种语言生成数百种新声音和现有语音的语音。另一方面，OpenAI 是一个人工智能研究实验室，为各种 AI 任务提供强大的 API，包括自然语言处理和理解。

为什么要构建自己的 AI 助手？

Unified Tech Stack：Node.js允许您使用JavaScript编写服务器端代码，如果您也在客户端使用JavaScript，则可能会统一您的技术堆栈。这使得开发更加精简。
尖端技术：ChatGPT 基于最先进的语言模型之一，提供高质量的对话功能。将其与您的助手集成可以提供强大的自然语言界面。
定制：使用ElevenLabs和LangChain，您可以自定义AI的行为，用户体验，甚至可以与之交互的数据源，使您的个人助理高度适合您的需求。
可扩展性：Node.js以其可扩展的架构而闻名，允许您轻松扩展助手的功能或用户群，而无需进行彻底检修。
学习机会：该项目可以在NLP，AI，服务器端开发和UI / UX设计等领域提供出色的学习体验。
开源和社区：Node.js 和 GPT 生态系统的某些元素都有强大的社区支持。您可以利用它来进行故障排除、更新，甚至为您的项目做出贡献。
跨学科技能：从事这样的项目需要多种技能——从前端和后端开发到机器学习和用户体验设计，提供全面的体验。
创新：鉴于个人人工智能助理是一个不断发展的领域，但仍然相对较新，您的项目可能会贡献以前从未探索过的新想法或方法。
实用性：最后，构建自己的个人助理意味着您可以设计它以满足您的特定需求，解决问题或自动化日常生活中的任务。

要创建自己的会说话的AI助手，您需要从ElevenLabs和OpenAI获取API密钥。这些密钥可以通过在两个平台上创建帐户并在帐户设置中查看 API 密钥来获取。拥有这些键后，您就可以开始设置语音助手了。

创建能够说话的个人AI助手

创建自己的口语 AI 助手的第一步是建立一个新的项目目录。此目录将包含助手所需的所有文件和代码。在此目录中，您需要为 API 密钥创建一个环境文件（EnV）。此文件将安全地存储您的密钥，并使您的代码可以访问它们。接下来，您需要创建一个索引文件和一个“音频”目录。索引文件将包含助手的主代码，而“audio”目录将存储助手生成的音频文件。

节点.js

设置目录结构后，需要安装必要的包。这些包将提供助手侦听命令、理解命令和生成响应所需的功能。您可以使用 Node.js 安装这些包，Node 是一种流行的服务器端脚本语言，允许将 JavaScript 用于服务器端脚本。安装必要的包后，需要将它们导入索引文件。这将使这些包提供的功能可用于您的代码。

查特

导入包后，您可以开始设置 OpenAI ChatGPT 实例和关键字检测。ChatGPT 实例将处理自然语言处理和理解，而关键字检测将允许您的助手侦听特定命令。接下来，您需要启动和管理录制过程。此过程将捕获提供给助手的音频命令，并将其保存为“audio”目录中的音频文件。

OpenAI 耳语

保存音频命令后，可以使用 OpenAI 的耳语转录转录它们。此转录会将音频命令转换为文本，然后您的助手可以理解这些文本。转录命令后，助手可以检查关键字并等待 OpenAI 语言模型（LLM）的响应。LLM将分析命令并生成文本响应。然后可以使用ElevenLabs的AI音频生成功能将此文本响应转换为音频。音频响应将保存在您的“audio”目录中，可以向用户播放。

最后，您可以自定义助手以执行某些操作或连接到互联网以获取更多功能。创建自己的会说话的AI助手是一个引人入胜的项目，可以通过一些工具和一些编码知识来完成。借助ElevenLabs和OpenAI，您可以创建一个助手，该助手可以以自然的，类似人类的声音进行聆听，理解和响应。

原创文章，作者：校长，如若转载，请注明出处：https://www.yundongfang.com/Yun262336.html

助手服务器端音频

打赏

微信扫一扫不于多少！

支付宝扫一扫礼轻情意重

在 PC、Mac 和 Linux 上轻松本地运行 AI 模型

上一篇 2023年10月24日下午10:31

使用大型语言模型和个人数据构建 AI 聊天应用

下一篇 2023年10月24日下午10:34

已解决：Microsoft商店中缺少Realtek音频控制台

https://u.jd.com/kz2KLti 我们都使用Microsoft商店作为应用程序的一站式商店，但是当Realtek音频控制台丢失时，它引出了一个问题，这是商店问题还是…

2024年5月29日 • 微软Microsoft
Spotify 无损（几乎）在这里，但不要抱有希望！

经过多年的失望等待，Spotify用户以研究的怀疑态度看待有关Spotify无损音频的大多数泄漏和猜测。谁能责怪他们？自宣布以来已经三年了，几乎没有关于确切发布日期的消息！因此，每…

2024年5月20日 • 工具软件
工具软件

Asta：在移动设备上运行的 AI 助手

Asta：在移动设备上运行的 AI 助手首个原生AI人机交互界面（AI-native HCI），这是首个真正的个人环境感知智能体（personal context-aware a…

2024年5月20日
Kimi 智能助手更新 Kimi+ Agent 能力

Kimi 智能助手更新 Kimi+ Agent 能力 Kimi 更新了自己的智能体功能，叫 Kimi+ 。产品层面考虑的非常完整，首批 Kimi+ 的内容都很有用。比如什么值得买驱…

工具软件 2024年5月10日
工具软件

亚马逊推出了 Amazon Q AI 助手

亚马逊推出了 Amazon Q AI 助手亚马逊推出了 Amazon Q AI 助手，一共有两个版本Amazon Q Developer 和 Amazon Q Business。…

2024年5月10日
Chordio：专门用于用户体验优化的 AI 助手

Chordio：专门用于用户体验优化的 AI 助手输入你的要求之后这个产品会为你的产品制作意制作简单的交互稿，这个还是挺不错的，很多产品一点交互能力没有。可以用这个试试。

工具软件 2024年5月10日
工具软件

谷歌发布了一堆AI能力和升级

谷歌发布了一堆AI能力和升级 Google Next 2024上周放出了不少狠货，这次 Open AI 没能够压下去热度。首先是 Gemini Pro 1.5 进行了一大波升级，…

2024年5月10日
无法在iPhone中发送音频消息：这是修复

无法在 iPhone 上从 iMessage 发送音频消息？音频消息始终优先于普通短信。它不仅速度快，而且比输入消息更方便。如果您无法发送音频消息，请不要担心。这些简短且易于实施的…

2024年5月3日 • 苹果Apple
如何使用 PowerToys 在 Windows 上查看音频文件

PowerToys 中的 Peek 实用程序现在支持预览音频文件。从 PowerToys 版本 0.80.0 开始，您将能够查看多种音频文件格式的内容，而无需在其专用应用程序中打开…

2024年4月11日 • Win 11
工具软件

如何使用您最喜欢的 LLM 制作自己的 AI 研究助理

如何使用您最喜欢的 LLM 制作自己的 AI 研究助理如果您有兴趣拥有自己的个人研究助理，该助理不仅高效，而且由人工智能驱动，能够在您需要时提供特定行业的见解。本文将指导您完成创…

2024年3月29日
工具软件

Denon DHT-S218杜比全景声条形音箱推出

Denon DHT-S218杜比全景声条形音箱推出 Denon推出DHT-S218杜比全景声条形音箱（Dolby Atmos Sound Bar），这是一种高级音频解决方案，旨在将…

2024年3月26日
如何在后台或锁定iPhone的情况下继续收听YouTube

在 iPhone 上，在后台收听 YouTube 音频通常需要支付 YouTube Premium 订阅费用，但有一个简单的解决方法可让您在 iPhone 上执行其他操作或设备锁定…

2023年12月29日 • 苹果Apple
MediaEditor：轻量、跨平台的开源非线性编辑

特征支持完整的时间线编辑功能，包括移动、裁剪、剪切、缩略图预览、缩放和删除。支持更加灵活便捷的蓝图系统。蓝图以节点的形式表示，可以通过节点和流程处理复杂的功能。支持约 45+…

工具软件 2023年12月23日
TurnVoice：将YouTube视频的声音重新翻译替换

项目简介一个命令行工具，用于转换 (YouTube) 视频中的语音，并具有附加翻译功能。它号称可以：– 语音替换：去除人声轨道并重新组合以保留原始背景音频&#8211…

工具软件 2023年12月18日
VoiceFixer 2：用于语音恢复的工具包

项目简介欢迎使用 VoiceFixer 2，下一代 VoiceFixer。VoiceFixer 是一款通用语音修复工具，使用 AI 消除背景噪音、修复降级语音、增强旧录音的音频质…

工具软件 2023年12月16日
工具软件

梅赛德斯奔驰将在 CES 2024 上展示最新技术

梅赛德斯-奔驰透露，它将在CES 2024上展示其最新的汽车技术，其中包括其人工智能驱动的MBUX虚拟助手和新概念车CLA级的新概念车。您的延伸，并无缝满足您的需求：这是实现超个…

2023年12月15日
工具软件

如何使用 AudioBox Meta 的新文本转声音 AI 工具

Meta 本月推出了一款名为 AudioBox 的新 AI 声音发生器，它将改变我们与声音互动的方式。这个创新工具允许用户使用简单的文本提示轻松将文本转换为语音、创作音乐和创建声音…

2023年12月14日
工具软件

如何使用 AI 克隆您的声音以及您为什么要这样做

你有一本想变成有声读物的书吗？或者其他需要您提供画外音的项目，例如媒体内容、视频、营销材料等？加快编辑和创作工作流程的一种可能方法是使用人工智能（AI）克隆您的声音。 Desc…

2023年12月10日
使用事件查看器查看快速助手日志 [如何操作]

有时，有必要检查电脑上的日志才能诊断某些问题，这就是为什么许多用户想知道如何使用电脑上的事件查看器查看快速助手日志的原因。这非常简单，通过这样做，用户可以检查他们拥有的所有远程会…

2023年12月7日 • 工具软件
同时将两副耳机连接到Mac

如果双方都想在Mac上观看视频而不打扰其他乘客，请尝试使用这种方便的解决方案在两副耳机之间共享Mac的音频。无论您使用的是一对有线耳机和一对无线耳机、两对蓝牙耳机，还是几对，下面…

2023年12月5日 • 苹果Apple
在 Mac 上播放平静的背景声音以保持专注

在 macOS Ventura 及更高版本中，Apple 为 Mac 提供了一项名为“背景声音”的辅助功能。这些声音旨在帮助您在工作中保持专注、促进平静并最大限度地减少分心。继续阅…

2023年11月29日 • 苹果Apple
如何制作您的第一个 Microsoft Copilot Studio AI 助手 – 初学者指南

微软公布了其在其服务范围内实施的大量新 AI 工具，其中一项服务是 Microsoft Copilot Studio。与 OpenAI 最近推出用户创建 GPT 的功能类似，Stu…

工具软件 2023年11月28日
工具软件

Music ControlNet使定制AI音频更灵活

随着文本到音乐生成模型的发展，如今我们能够欣赏到各种风格的高质量AI生成的音乐音频。Music ControlNet的团队提出了一种创新的音乐生成模型，称之为Music Contr…

2023年11月27日
Open Assistant: 本地版YORG开放助手系统

OpenAI 的 Assistant API 非常棒：利用代码解释器和检索的强大功能，从而帮助开发人员构建能够执行各种任务的强大 AI 助手。然而，它在在线沙箱中执行代码，并要求我…

工具软件 2023年11月23日
通过Whisper模型将YouTube播放列表中的视频转换成高质量文字稿的项目

一个通过Whisper模型将YouTube播放列表中的视频转换成高质量文字稿的项目。这个基于 Python 的工具旨在将 YouTube 视频和播放列表转录为文本。它集成了多种技…

工具软件 2023年11月23日