DeepSpeed Chat是什么？如何安装

2023年4月12日下午7:48 • 工具软件

ChatGPT及类似模型引发了人工智能（AI）领域的一场风潮。这场风潮对数字世界产生了革命性影响。ChatGPT类模型具有惊人的泛用性，能够执行归纳、编程、翻译等任务，其结果与人类专家相当甚至更优。为了使ChatGPT等模型的训练和部署更轻松，AI 开源社区进行了各种尝试（例如 ChatLLaMa、Alpaca、Vicuna、Databricks-Dolly等）。

然而，尽管开源社区付出了巨大的努力，目前仍缺乏一个支持端到端的基于人工反馈机制的强化学习（RLHF）的规模化系统，这使得训练强大的类ChatGPT模型十分困难。例如，使用现有的开源系统训练一个具有 67 亿参数的类ChatGPT模型通常需要昂贵的多卡至多节点的 GPU 集群，但这些资源对大多数数据科学家或研究者而言难以获取。同时，即使有了这样的计算资源，现有的开源系统的训练效率通常还不到这些机器所能达到的最大效率的5%。简而言之，即使有了昂贵的多GPU集群，现有解决方案也无法轻松、快速、经济的训练具有数千亿参数的最先进的类ChatGPT模型。

ChatGPT模型的训练是基于InstructGPT论文中的RLHF方式。这与常见的大语言模型的预训练和微调截然不同。这使得现有深度学习系统在训练类ChatGPT模型时存在种种局限。因此，为了让ChatGPT类型的模型更容易被普通数据科学家和研究者使用，并使RLHF训练真正普及到AI社区，我们发布了 DeepSpeed-Chat。DeepSpeed-Chat具有以下三大核心功能：

（i）简化 ChatGPT 类型模型的训练和强化推理体验：只需一个脚本即可实现多个训练步骤，包括使用 Huggingface 预训练的模型、使用 DeepSpeed-RLHF 系统运行 InstructGPT 训练的所有三个步骤、甚至生成你自己的类ChatGPT模型。此外，我们还提供了一个易于使用的推理API，用于用户在模型训练后测试对话式交互。

（ii）DeepSpeed-RLHF 模块：DeepSpeed-RLHF 复刻了 InstructGPT 论文中的训练模式，并确保包括a) 监督微调（SFT），b) 奖励模型微调和 c) 基于人类反馈的强化学习（RLHF）在内的三个步骤与其一一对应。此外，我们还提供了数据抽象和混合功能，以支持用户使用多个不同来源的数据源进行训练。

（iii）DeepSpeed-RLHF 系统：我们将 DeepSpeed 的训练（training engine）和推理能力（inference engine) 整合到一个统一的混合引擎（DeepSpeed Hybrid Engine or DeepSpeed-HE）中用于 RLHF 训练。DeepSpeed-HE 能够在 RLHF 中无缝地在推理和训练模式之间切换，使其能够利用来自 DeepSpeed-Inference 的各种优化，如张量并行计算和高性能CUDA算子进行语言生成，同时对训练部分还能从 ZeRO- 和 LoRA-based 内存优化策略中受益。DeepSpeed-HE 还能够自动在 RLHF 的不同阶段进行智能的内存管理和数据缓存。

DeepSpeed-RLHF 系统在大规模训练中具有无与伦比的效率，使复杂的 RLHF 训练变得快速、经济并且易于大规模推广：

高效性和经济性：DeepSpeed-HE 比现有系统快 15 倍以上，使 RLHF 训练快速且经济实惠。例如，DeepSpeed-HE 在 Azure 云上只需 9 小时即可训练一个 OPT-13B模型，只需 18 小时即可训练一个 OPT-30B模型。这两种训练分别花费不到 300 美元和 600 美元。

GPUs	OPT-6.7B	OPT-13B	OPT-30B	OPT-66B
8x A100-40GB	5.7 hours	10.8 hours	1.85 days	NA
8x A100-80GB	4.1 hours ($132)	9 hours ($290)	18 hours ($580)	2.1 days ($1620)

表 1. 单节点 8x A100：训练时长及预估的 Azure 费用。

卓越的扩展性：DeepSpeed-HE 能够支持训练拥有数千亿参数的模型，并在多节点多 GPU 系统上展现出卓越的扩展性。因此，即使是一个拥有 130 亿参数的模型，也只需 1.25 小时就能完成训练。而对于庞大的拥有1750 亿参数的模型，使用 DeepSpeed-HE 进行训练也只需不到一天的时间。

GPUs	OPT-13B	OPT-30B	OPT-66B	OPT-175B
64x A100-80G	1.25 hours ($320)	4 hours ($1024)	7.5 hours ($1920)	20 hours ($5120)

表 2. 多节点 64x A100-80GB：训练时长及预估的 Azure 费用。

非常重要的细节: 上述两个表格（即表一和表二）中的数据均针对 RLHF 训练的第 3 步，基于实际数据集和 DeepSpeed-RLHF 训练吞吐量的测试。该训练在总共 1.35 亿（135M）个字符（token）上进行一个时期（epoch）的训练。我们总共有 6750 万个查询（query）字符（131.9k 个 query，每个序列长度为 256）和 6750 万个生成/回答字符（131.9k 个答案，每个序列长度为 256），每步的最大全局字符批量大小约为 500 万个字符（1024 个查询-答案对）。在与 DeepSpeed-RLHF 进行任何成本和端到端时间比较之前，我们建议读者注意这些设定。想要了解更多详细信息，请参阅我们的页面 benchmark setting。

实现 RLHF 训练的普及化：仅凭单个 GPU，DeepSpeed-HE 就能支持训练超过 130 亿参数的模型。这使得那些无法使用多 GPU 系统的数据科学家和研究者不仅能够轻松创建轻量级的 RLHF 模型，还能创建大型且功能强大的模型，以应对不同的使用场景。

	V100 32G	A6000 48G	A100 40G	A100 80G
Model Size	OPT-2.7B	OPT-6.7B	OPT-6.7B	OPT-13B

表 3. DeepSpeed-HE 在不同的 GPU 单卡上支持的最大模型。

接下来，我们将深入了解上面介绍的 DeepSpeed-Chat 的三个功能。

2. 简洁高效且经济的 ChatGPT 训练与推理体验

接下来，我们向你展示如何使用一行命令即可利用 DeepSpeed-RLHF 系统训练 OPT-13B 和 OPT-66B 模型。即使时间有限，你也可以在大约两小时内在单个消费级 GPU 上训练一个 OPT-1.3B 模型。此外，我们还演示了如何利用我们的 DeepSpeed-chat RLHF API 来开发你自己的模型：

使用 DeepSpeed-Chat 的 RLHF 示例轻松训练你的第一个类ChatGPT 模型

a) 仅需一个脚本，完成 RLHF 训练的全部三个阶段，生成你的第一个 ChatGPT 模型！

以下示例展示了如何使用一个脚本，以预训练的 OPT-13B 作为 actor 模型，OPT-350M 作为 reward 模型，生成一个最终的 130 亿参数的 ChatGPT 类型的模型：

git clone https://github.com/microsoft/DeepSpeed.git
cd DeepSpeed
pip install .

git clone https://github.com/microsoft/DeepSpeedExamples.git
cd DeepSpeedExamples/applications/DeepSpeed-Chat/
pip install -r requirements.txt

python train.py --actor-model facebook/opt-13b --reward-model facebook/opt-350m --num-gpus 8

大约半天时间，你的拥有130 亿参数的模型即可完成训练。下表展示了整个过程在三个步骤中所需的时间：

Model Sizes	Step 1	Step 2	Step 3	Total
Actor: OPT-13B, Reward: OPT-350M	2.5hr	0.25hr	10.8hr	13.6hr

表 4. 在单个DGX节点上（8x A100-40G），针对不同的RLHF步骤，使用DeepSpeed-Chat训练OPT-13b所需的时间。

b) 使用 DeepSpeed-Chat 的推理 API 测试训练好的模型

将训练好的模型导入提供的简易 API，你不仅可以与模型进行问答互动，还可以进行对话式交流。

Human:        Do you know Microsoft?
Assistant:    Yes, I’m a big fan of Microsoft.  What about them?
Human:        Can you explian it to a 6-year old child? I wonder how I should describe it
Assistant:    Sure, I can try.  Microsoft is a company that makes computers, and they make a program called “Windows” which
              is the operating system that runs on the computer. It’s like the “brain” of the computer.  It’s where all the
              programs and files are stored. It’s also where you’ll find the “start” button, which is where you’ll start to
              use the computer.

想尝试不同的模型大小和配置？轻松实现！

我们了解到用户通常喜欢尝试不同的模型大小和配置，以满足他们不同的训练时间、资源和质量的需求。借助 DeepSpeed-Chat，你可以轻松实现这些目标。例如，如果你想在 GPU 集群上训练一个更大、更高质量的模型，用于你的研究或业务，你可以使用相同的脚本，只需输入你期望的模型大小（例如 660 亿参数）和 GPU 数量（例如 64 个 GPU）：

python train.py --actor-model facebook/opt-66b --reward-model facebook/opt-350m --num-gpus 64

在接下来的9 小时内，你将拥有一个 660 亿参数的 ChatGPT 模型，并可以在你喜欢的前端 GUI 中使用：

Model Sizes	Step 1	Step 2	Step 3	Total
Actor: OPT-66B, Reward: OPT-350M	82 mins	5 mins	7.5hr	9hr

表 5. 在8个DGX节点上（64x A100-80G），针对不同的RLHF步骤，使用DeepSpeed-Chat训练OPT-66b所需的时间。

如果你只有大约 1-2 小时的咖啡或午餐休息时间，你也可以尝试使用 DeepSpeed-Chat 训练一个小型模型。例如，我们为单个数据集准备了一个 13 亿参数模型的训练示例，以便在你的消费级 GPU 上测试我们的框架。当你从午餐休息回来时，你的模型已经准备好供你使用！

python train.py --actor-model facebook/opt-1.3b --reward-model facebook/opt-350m --num-gpus 1

Model Sizes	Step 1	Step 2	Step 3	Total
Actor: OPT-1.3B, Reward: OPT-350M	2900 secs	670 secs	1.2hr	2.2hr

表 6. 在单个消费级A6000-48G上，针对不同的RLHF步骤，使用DeepSpeed-Chat训练OPT-1.3b所需的时间。

原创文章，作者：校长，如若转载，请注明出处：https://www.yundongfang.com/Yun246067.html

打赏

微信扫一扫不于多少！

支付宝扫一扫礼轻情意重

错误修复：文件当前不可用（0x800710fe）

上一篇 2023年4月12日下午6:38

简洁高效且经济的 ChatGPT 训练与推理体验

下一篇 2023年4月12日

OpenAI o1 是什么？如何运作的

https://u.jd.com/daBByyr https://u.jd.com/d67YrPi OpenAI o1 可以通过复杂的任务进行推理，并解决比以前的科学、编码和数学模…

工具软件 2024年9月20日
工具软件

Unriddle：AI 论文写作工具

Unriddle：AI 论文写作工具 Y Combinator 支持的研究工具，旨在加速研究人员和学生阅读和撰写研究论文的过程，提供 AI 辅助的信息检索、内容理解和写作功能，支持…

2024年9月20日
工具软件

Clockwise：基于 AI 的日历工具

Clockwise：基于 AI 的日历工具 Clockwise 是一个基于 AI 的时间管理日历工具，旨在通过智能调度帮助个人和团队更高效地管理时间。它能够像魔术一样工作，为团队…

2024年9月20日
工具软件

Tolan：人格化的 ChatBot

Tolan：人格化的 ChatBot 一个友好的小外星人，你可以和他谈论任何事情，他甚至可以帮助你想象你的想法。看起来支持类似实时语音能力，小外星人的形象也可以自定义非常可爱

2024年9月20日
阿里开源支持视频理解的多模态 LLM Qwen2-VL

阿里开源支持视频理解的多模态 LLM Qwen2-VL 国内现在还没有特别好的多模态闭源模型尤其是支持视频理解的，阿里这就开源了。不过最大的Qwen2-VL 72B 没有开源，只开…

工具软件 2024年9月20日
一亿上下文长度的 LLM：LTM-2-Mini

一亿上下文长度的 LLM：LTM-2-Mini Magic 发布了一个具有 1 亿 Token 上下文的模型 LTM-2-mini。1 亿 Token相当于大约 1000 万行代码…

工具软件 2024年9月20日
Open AI 新的推理模型已经训练完成

Open AI 新的推理模型已经训练完成高质量合成数据的重要性再一次被证明。 Open AI 的逻辑是使用一个足够庞大且非常不经济的推理模型（Strawberry）生产优质合成数…

工具软件 2024年9月20日
工具软件

PackPack：保存和收集内容 AI 整理

PackPack：保存和收集内容 AI 整理 PackPack是一个为用户提供一键保存网页内容的浏览器扩展插件。用户可以通过扩展按钮快速保存页面、捕获帖子、通过悬停图片气泡保存图片…

2024年9月20日
Meta 如何微调：关注有效数据集

Meta 如何微调：关注有效数据集 Meta AI 团队关于如何微调 LLM 的第三篇文章，主要探讨如何通过精细化数据集来提高大型语言模型（LLMs）的性能，包括全参数精细化（F…

工具软件 2024年9月20日
工具软件

Polymet ：AI 生成前端界面

Polymet ：AI 生成前端界面 YC 投了一个类似V0 的前端代码生成项目 Polymet。这个比 V0 多了很多很实用的功能对设计的还原也很好。自定义主题色、字体、圆角…

2024年9月20日
工具软件

AdvancedLivePortrait：自定义面部表情动画

AdvancedLivePortrait：自定义面部表情动画 Live Portrait 被玩出花了。AdvancedLivePortrait 这个插件可以让你手动编辑人脸图片的表…

2024年9月20日
工具软件

Fluxgym：FLUX Lora 训练工具

Fluxgym：FLUX Lora 训练工具 Fluxgym：一个非常简单的傻瓜式 FLUX Lora 训练工具。最低只需要12G显存就可以训练。后端还是用的Kohya脚本。使用方…

2024年9月20日
工具软件

Replit 发布了 AI 编程工具 Replit Agent

Replit 发布了 AI 编程工具 Replit Agent Replit 发布了 AI 编程工具 Replit Agent。这玩意太强了，对于编程零基础的人非常有用。 Clua…

2024年9月20日
Project Sid：1000 个 Agent 组成的社会

Project Sid：1000 个 Agent 组成的社会这玩意太强了。一千个 Agent 在《我的世界》游戏里自主运行和发展：会根据领导人的不同发展出不同的社会政策。发现…

工具软件 2024年9月20日
AdSense全新广告意向条状标签格式即将发布，您符合自动启用该格式的条件

我们非常高兴地宣布，广告意向条状标签这一最新的意向驱动型搜索广告格式即将发布。继广告意向链接和广告意向锚点链接获得成功之后，广告意向条状标签的推出让您有更多方式来展示与用户高度相关…

2024年9月4日 • 工具软件
VMware虚拟机安装fnnas飞牛私有云+详细教程 VMware Workstation部署飞牛NAS手册

VMWare虚拟机保姆级部署fnnas飞牛私有云准备下载： 1、https://support.broadcom.com/group/ecx/productdownloads?s…

2024年9月2日 • 工具软件
工具软件

Respired：社交媒体批量管理

Respired：社交媒体批量管理一个针对初创企业的 AI 驱动的社交媒体管理平台，通过分析、内容创建、多渠道调度和性能分析等功能，帮助企业高效地管理社交媒体，多渠道社交媒体管…

2024年8月31日
工具软件

Morphic Studio：为创建受控视频做的 AI 视频平台

Morphic Studio：为创建受控视频做的 AI 视频平台 Morphic Studio 包括 Canvas 和 Compose 功能，Canvas 是一个全面的故事板和生成…

2024年8月31日
Deep Live Cam：单图实现实时直播换脸

Deep Live Cam：单图实现实时直播换脸前几天引起人们对 AI 写实能力警惕的另一个项目，只需要一张图片就可以实现实时的直播换脸。从演示来看角度大的话还是会穿帮，另外换…

工具软件 2024年8月31日
Figure 发布 Figure 02 人形机器人

Figure 发布 Figure 02 人形机器人 Figure 上周发布了 Figure 02 人形机器人，他们说这是世界上最先进的 AI 硬件。2023 年 2 月他们就完成了…

工具软件 2024年8月31日
工具软件

FLUX 的周边生态发展迅速

FLUX 的周边生态发展迅速前段时间由于 SD3 的问题，开源的图片生态发展一度停滞，值得关注的新项目和模型几乎没有。 FLUX 上周发布后这个态势被快速改变了，由于其优秀的图片…

2024年8月31日
Napkin：文本转换为信息图表

Napkin：文本转换为信息图表 Napkin AI 是一个将文本内容转换为视觉图像的工具，旨在通过生成图表、流程图等视觉元素来加速和提高业务故事讲述的效果。使用 Napkin …

工具软件 2024年8月31日
Trellis AI：从非结构化内容中提取数据

Trellis AI：从非结构化内容中提取数据 Trellis AI 引擎能够将复杂的数据源，如金融文档、电话和邮件，高效地转换成结构化的 SQL 格式，以便数据和运营团队使用。 …

工具软件 2024年8月31日
Sparkle：用 AI 自动整理文件

Sparkle：用 AI 自动整理文件使用 AI 创建独特的文件夹系统，并将每个新文件（以及所有旧文件）整理到正确的位置。它可以管理您的下载、桌面和文档文件夹。 &…

工具软件 2024年8月31日
工具软件

Clapper app：AI 剪辑工具

Clapper app：AI 剪辑工具非常强的网页端 AI 生成和视频剪辑工具。接入了 AI 视频需要的各种 API，包括图片生成、LLM、语音生成、音乐生成、视频生成。时间轴直…

2024年8月31日