ChatGPT开发大语言模型需要什么？

2023年6月29日下午8:46 • 工具软件

关键一：数据

训练数据主要是所谓的语料库。今天的很多语言模型的语料库主要有以下几种：

Books：BookCorpus 是之前小语言模型如 GPT-2 常用的数据集，包括超过 11000 本电子书。主要包括小说和传记，最近更新时间是 2015 年 12 月。大一点的书籍语料库是 Gutenberg，它有 70000 本书，包括小说、散文、戏剧等作品，是目前最大的开源书籍语料库之一，最近更新时间是 2021 年 12 月。
CommonCrawl：这个是目前最大的开源网络爬虫数据库，不过这个数据包含了大量脏数据，所以目前常用的四个数据库是 C4、CC-Stories、CC-News 和 RealNews。另外还有两个基于 CommonCrawl 提取的新闻语料库 REALNEWS 和 CC-News。
Reddit Links：简单理解 Reddit 就是外国版本的百度贴吧 + 知乎。目前开源的数据库有 OpenWebText 和 PushShift.io。
Wikipedia：维基百科是目前大模型广泛使用的语料库。
Code：一般包含 GitHub 上的开源公共代码库，或者是 StackOverflow 的数据，Google 之前发布过一个叫 BigQuery 的数据集。

实际上，训练大语言模型会混合使用不同的数据，一般不会只使用单一语料库。比如 GPT-3 用的混合数据集就包括 Books、CommonCrowl、Reddit Links 和 Wikipedia。

从数据上看，你需要知道一个事实，中文语料在这上面占比很小。ChatGPT 能用中文回答你的问题，只是因为它的语料里有一些中英文对应的语料，然后模型就像是「懂中文了一样」，所以更可能的情况是，它先生成了英文内容，再翻译成中文。如果你去问 ChatGPT 3.5：请给我几个中文谐音梗，你应该就能理解我说的话了。

以下是 ChatGPT 的返回结果：

以下是一些中文谐音梗的例子：

我蒸发了，意思是我是 Vaper 了（Vaper发音接近蒸发）。

会有星期天，都得过过来，意思是星期二，星期三，星期四，星期五，星期六，都得过过来。

看到你，我的内心凉了 below zero，意思是凉了半截（below zero与半截音相近）。

蜀道难，难于上青天，赛道难，难于上488（488与“蜀道难”同音）。

洋葱姑娘，想哭却哭不出来，因为洋葱让我流泪了（洋葱和“要哭”在中文中的发音很相似）。

雨纷纷，旧故里草木深，我听闻，你始终在我身边深（“身边深”和“身边寻”谐音）。

你的车开得真快，一开就是“出租”，意思是“出祖宗”（发音类似）。

关键二：算法

有了数据之后，你还需要有算法去做计算，目前最常用的开发大语言模型的算法库有：

Transformers：这是一个使用 Transformer 架构构建的开源 Python 库。
DeepSpeed：是由微软开发的深度学习优化库。
Megatron-LM：这是由 Nvidia 开发的深度学习库。
JAX：它是由 Google 开发的用于高新能机器学习算法的 Python 库。

关键三：算力

简单理解，算力就是计算资源，或者说硬件，OpenAI 没有说它训练 GPT-3 语言模型花了多少计算资源。但 OpenAI 的 CEO 暗示硬件成本超过一亿美元，如果我们按照 1000 美元一个 GPU 计算，它大约使用了 10 万个 GPU，以 32 位运算为准，它能提供超过 100 PFLOPS 的算力，也就是每秒 10 亿亿次运算以上，这大约是阿里云最大的数据中心的四分之一的算力。

注意，这还是 GPT-3 时的花费。

另外，我还想分享一个观点，不要以为算力会随时间的前进，就能跨越。算力永远会是制约我们瓶颈，因为我们对人工智能的要求会不断的提高。

原创文章，作者：校长，如若转载，请注明出处：https://www.yundongfang.com/Yun238441.html

算力语料库语言模型

打赏

微信扫一扫不于多少！

支付宝扫一扫礼轻情意重

ChatGPT如何计算概率？

上一篇 2023年6月29日

ChatGPT大语言模型有什么缺点？

下一篇 2023年6月29日

谷歌Google

将Gemini Pro AI与LangChain相结合，打造迷你检索增强生成（RAG）系统

在快速发展的语言处理世界中，Gemini Pro等高级工具与LangChain的集成对于那些希望增强其语言模型能力的人来说是向前迈出的重要一步。本指南专为具有半技术背景的个人而设计…

2023年12月18日
工具软件

使用 Promptfoo 改进您的 AI 提示以获得更高水平的结果

能够与 AI 语言模型进行良好沟通对任何人来说都越来越重要，无论您是个人、开发人员还是企业，都依赖于我们根据严格的要求创建特定的提示。但是，我们怎么知道我们是否创建了最好的提示呢？…

2023年12月13日
工具软件

使用大型语言模型和个人数据构建 AI 聊天应用

任何有兴趣了解有关构建 AI 聊天应用程序的更多信息的人。有兴趣知道IBM已经创建了一个非常快速和中肯的介绍，以使用检索增强生成（RAG）和大型语言模型。通过构建自己的聊天应用程序…

2023年10月24日
工具软件

学习如何使用LangChain – 初学者指南

如果您对使用 AI 构建应用程序和服务感兴趣，您绝对应该学习如何使用 LangChain 以及如何使用它来简化使用各种不同的 AI 模型构建应用程序的过程。人工智能和自然语言处理（…

2023年10月2日
谷歌Gemini AI开始向企业推出抢先体验

一些企业已经获得了谷歌即将推出的人工智能语言模型Gemini的访问权限。谷歌已授予一组精选公司提前访问Gemini，这标志着其与消费者服务集成以及通过Google的云部门向企业提供…

工具软件 2023年9月18日
苹果Apple

Apple每天花百万美元训练语言模型为iOS 18作准备

Apple 在人工智能方面的投资显著增加，特别是在 AI 和机器学习研究领域。尽管Apple的AI负责人John Giannandrea对AI聊天机器人持怀疑态度，但他四年前就组…

2023年9月7日
最新资讯

在英特尔 ARC GPU、iGPU 和 CPU 上运行 Llama 2 13B

在不断发展的人工智能世界中，最近推出的 Meta Llama 2 大型语言模型引起了技术爱好者的兴趣。进行了引人入胜的演示，展示了 Llama 2 13B 在英特尔 ARC GPU…

2023年8月16日
工具软件

如何使用云访问在本地安装 Llama 2

在语言模型领域，Llama 2是人工智能力量的有力证明。本指南提供了有关如何在本地安装 Llama 2 并在云上访问它的更多见解，这一过程释放了这种非凡语言模型的全部潜力。 Lla…

2023年8月16日
工具软件

StableLM 与 ChatGPT 语言模型的比较和测试

在不断发展的人工智能世界中，引起关注的最新发展是 StableLM，这是由 Stability AI 团队创建的语言模型。这个开源项目可通过GitHub获取，一直在人工智能社区中掀…

2023年8月12日
Stability AI发布的新日语StableLM语言模型

Stability AI推出了其首个日语模型（LM），日语StableLM Alpha。该型号不仅是该公司的首创，而且还是日语使用者表现最好的开放式LM，在该领域树立了新标准。日…

工具软件 2023年8月10日
工具软件

如何安装具有本地内存的私人Llama 2 AI助手

在人工智能领域，隐私至关重要。与您的语言模型（LLM） AI 私下交谈的能力是许多用户渴望的功能。这就是Llama 2和LocalGPT发挥作用的地方。已经开发了一个全面的指南来…

2023年8月9日
工具软件

开放 AI 按下 GPT-5 的按钮

有一个名字是尖端语言模型的先驱：OpenAI。18 年 2023 月 5 日，OpenAI OpCo， LLC 向美国专利商标局（USPTO）提交了“GPT-<>”…

2023年8月2日
什么是Forefront AI以及如何使用它

什么是Forefront AI以及如何使用它您想尝试 GPT-4 但不想向 OpenAI 支付月费吗？好吧，Forefront AI在这里让您无需支付一分钱即可试用。在本指南中，…

2023年7月31日 • 工具软件
LangChain 官方网站上的快速入门教程

快速入门指南本教程为您提供了有关使用 LangChain 构建端到端语言模型应用程序的快速演练。安装要开始使用，请使用以下命令安装 LangChain： pip instal…

最新资讯 2023年6月14日
工具软件

如何使用 Langchain 扩展 ChatGPT 搜索功能

如果您发现使用 ChatGPT 编写程序很棘手，因为它的截止日期是 2021 年 <> 月。您可能对开发人员Greg Kamradt（Data Indy）Shweta …

2023年6月14日
微软Microsoft

微软和英伟达宣布迄今为止训练的最大、最强大的语言模型

点击进入：ChatGPT工具插件导航大全微软和英伟达今天宣布推出由 DeepSpeed 和威震天驱动的威震天图灵自然语言生成模型 (MT-NLG)，这是迄今为止训练的最大、最强大…

2021年10月12日

ChatGPT开发大语言模型需要什么？

关键一：数据​

关键二：算法​

关键三：算力​

相关推荐

关键一：数据

关键二：算法

关键三：算力