「快意」大规模语言模型（KwaiYii）

2023年9月19日上午10:54 • 工具软件

简介

「快意」大模型（KwaiYii）是由快手AI团队从零到一独立自主研发的一系列大规模语言模型（Large Language Model，LLM），当前包含了多种参数规模的模型，并覆盖了预训练模型（KwaiYii-Base)、对话模型（KwaiYii-Chat)。这里面我们介绍13B规模的系列模型KwaiYii-13B，其主要特点包括：

KwaiYii-13B-Base预训练模型具备优异的通用技术底座能力，在绝大部分权威的中/英文Benchmark上取得了同等模型尺寸下的State-Of-The-Art效果。例如，KwaiYii-13B-Base预训练模型在MMLU、CMMLU、C-Eval、HumanEval等Benchmark上目前处于同等模型规模的领先水平。
KwaiYii-13B-Chat对话模型具备出色的语言理解和生成能力，支持内容创作、信息咨询、数学逻辑、代码编写、多轮对话等广泛任务，人工评估结果表明KwaiYii-13B-Chat超过主流的开源模型，并在内容创作、信息咨询和数学解题上接近ChatGPT(3.5)同等水平。

Benchmark评测效果

我们选取了行业中被广泛认可的权威Benchmark进行评测，例如体现英文综合能力的MMLU、体现中文综合能力的C-Eval和CMMLU、体现中小学数学能力的GSM8K以及体现代码能力的HumanEval，并与行业上的主流模型在上述Benchmark上汇报的指标结果进行比较。具体对比结果如下所示：

C-Eval是一个全面的中文基础模型评测数据集，由清华大学、上海交通大学和爱丁堡大学合作构建，包含12342道单项选择题，涵盖数学、物理、化学、生物、历史、政治、计算机等52个不同学科和四个难度级别，是最具影响力的中文综合性考试评测集之一。其采用5-shot的方式进行评测。

	Model 5-shot	Average	STEM	Social Sciences	Humanities	Others
预训练模型	KwaiYii-13B-Base	62.6	52.7	74.1	68.8	63.7
	ChatGLM2-12B-Base	61.6	55.4	73.7	64.2	59.4
	Qwen-7B	59.6	52.8	74.1	63.1	55.2
	Baichuan-13B-Base	53.6	47	66.8	57.3	49.8
对话模型	ChatGLM2	71.1	64.4	81.6	73.7	71.3
	GPT-4	68.7	67.1	77.6	64.5	67.8
	KwaiYii-13B-Chat	59.0	49.9	69.2	63.9	61.0
	ChatGLM2-12B-Chat	57.0	52.1	69.3	58.5	53.2
	GPT-3.5	54.4	52.9	61.8	50.9	53.6
	Baichuan-13B-Chat	51.5	43.7	64.6	56.2	49.2

MMLU由加州大学伯克利分校等知名高校共同打造，集合了科学、工程、数学、人文、社会科学等领域的57个科目，包含14079道单项选择题，主要目标是对模型的英文跨学科专业能力进行深入测试。其内容广泛，从初级水平一直涵盖到高级专业水平，同样采用5-shot方式进行评测。

	Model 5-shot	Average	STEM	Social Sciences	Humanities	Others
预训练模型	KwaiYii-13B-Base	57.42	46.82	68.83	51.56	64.96
	Qwen-7B	56.7	–	–	–	–
	ChatGLM2-12B-Base	56.18	48.18	65.13	52.58	60.93
	Llama2-13B-Base	54.8	–	–	–	–
	Baichuan-13B-Base	51.6	41.6	60.9	47.4	58.5
	Llama1-13B-Base	46.9	–	–	–	–
对话模型	GPT-4	86.4	–	–	–	–
	GPT-3.5	70.0	–	–	–	–
	KwaiYii-13B-Chat	56.44	46.79	66.36	50.73	64.28
	ChatGLM2-12B-Chat	52.13	47.00	61.00	46.10	56.05
	Baichuan-13B-Chat	52.1	40.9	60.9	48.8	59.0

CMMLU是一个综合性的中文评估基准，专门用于评估语言模型在中文语境下的知识和推理能力。CMMLU涵盖了从基础学科到高级专业水平的67个主题，包括：需要计算和推理的自然科学，需要知识的人文科学和社会科学，以及需要生活常识的中国驾驶规则等，共11582道单项选择题。此外，CMMLU中的许多任务具有中国特色，可能在其他地区或语言中并不普遍适用，是一个完全中国化的中文测试基准。评测分别采用5-shot和0-shot的方式进行。

	Model 5-shot	平均分	STEM	人文学科	社会科学	其他	中国特定主题
预训练模型	KwaiYii-13B-Base	61.73	46.54	69.22	64.49	65.09	63.10
	Qwen-7B-Base	58.66	48.39	63.77	61.22	62.14	58.73
	MiLM-6B	57.17	46.85	61.12	61.68	58.84	59.39
	Baichuan-13B-Base	55.82	42.38	61.61	60.44	59.26	56.62
	ChatGLM2-6B-Base	48.80	42.55	50.98	50.99	50.80	48.37
对话模型	GPT-4	70.95	65.23	72.11	72.06	74.79	66.12
	KwaiYii-13B-Chat	59.97	47.33	65.85	62.19	62.23	61.00
	Baichuan-13B-Chat	55.8	42.8	62.6	59.7	59.0	56.1
	GPT-3.5	55.51	47.81	55.68	56.50	62.66	50.69

	Model 0-shot	平均分	STEM	人文学科	社会科学	其他	中国特定主题
预训练模型	KwaiYii-13B-Base	61.22	46.82	69.35	63.42	64.02	63.26
	MiLM-6B	60.37	48.88	63.49	66.20	62.14	62.07
	Qwen-7B-Base	57.57	46.33	62.54	60.48	61.72	58.77
	Baichuan-13B-Base	54.63	42.04	60.49	59.55	56.60	55.72
	ChatGLM2-6B-Base	49.95	41.28	52.85	53.37	52.24	50.58
对话模型	GPT-4	68.90	63.16	69.19	70.26	73.16	63.47
	KwaiYii-13B-Chat	60.41	46.15	66.49	63.25	62.68	61.94
	GPT-3.5	53.22	44.80	53.61	54.22	59.95	49.74

GSM8K是由OpenAI构建的高中数学应用题数据集，包含8500道高质量的数据，主要目标是对模型的数学推理能力进行评测，其中测试集1319条数据，每个问题都需要2-8个步骤来解决，解决方案主要包括使用基本算术运算（+ − × ÷）进行一系列的基本计算，以得到最终答案。其采用8-shot进行评测。

	Model 8-shot	GSM8K
预训练模型	Qwen-7B-Base	51.6
	KwaiYii-13B-Base	48.4
	ChatGLM2-12B-Base	40.94
	Llama2-13B-Base	28.7
	Baichuan-13B-Base	22.44
对话模型	GPT-4	92.0
	GPT-3.5	57.1
	KwaiYii-13B-Chat	52.2
	Qwen-7B-Chat	43.5
	ChatGLM2-12B-Chat	38.13

HumanEval是OpenAI和Anthropic AI一起制作的代码数据集，包含164个原创编程题，涉及语言理解、算法、数学和软件面试几种类型的题目。其采用0-shot的方式进行评测。

	Model 0-shot	HumanEval @Pass1
预训练模型	KwaiYii-13B-Base	40.8
	Qwen-7B-Base	24.4
	Llama2-13B-Base	18.3
	Llama1-13B-Base	15.8
对话模型	GPT-4	67.0
	GPT-3.5	48.1
	KwaiYii-13B-Chat	43.3
	Qwen-7B-Chat	24.4
	Llama2-13B-Chat	15.85

从对比结果可以看出，KwaiYii-13B-Base及KwaiYii-13B-Chat模型在各榜单中均处于领先水平。在MMLU、CMMLU、C-Eval等体现综合学科类的Benchmark上领先，说明KwiiYii-13B-Base预训练模型在中英文双语学科和行业领域的知识能力突出。在GSM8K数学评测集上及HumanEval编程测评集上的优异表现，则体现了模型较好的数理逻辑及代码能力。

人工评测结果

Benchmark指标体现了语言模型的基础理解能力，更直观地，我们人工评估了模型在各类任务上遵循用户指令的能力。我们构建了一个高质量评测集，包含了内容创作、信息咨询、数学解题、逻辑推理、代码能力和多轮对话共6个类别。其中内容创作包括文章写作、翻译、摘要总结等根据给定约束生成文本的任务，以及对实体/事件的观点描述等；信息咨询偏向信息获取，如知识/常识咨询，景点、电影和音乐推荐等；数学解题主要包含四则运算、应用题、方程等数学问题；逻辑推理主要包括事实推理、演绎推理和数据统计等；代码能力包含代码编写、代码调试、Bug分析；多轮对话则主要体现在一个Session中持续对话的上下文意图理解和产生正确回复的能力。

为了直观地比较待评测模型与ChatGPT的效果差异，对于评测集中的每个问题，我们都评测了其与ChatGPT的Good:Same:Bad（下文简称GSB，其中Good表示评测集中，待评测模型比ChatGPT表现更好的数量，Same则表示表现持平的数量，Bad则是待评测模型比ChatGPT表现更差的数量）结果。具体而言，我们将待评测模型与ChatGPT进行双盲对比测试：对于每一个Query，我们隐藏模型信息，并打乱两个模型的答案顺序，然后分配给多名评测者，评测人员根据内容正确性、内容相关性、内容详实性等维度进行打分，然后从“模型A好”、“模型B好”、“两者一样好”、“两者都一般”以及“两者一样差”五个选项中进行选择，最终再根据多名评测人员的GSB评测结果，按照规则拟合成该条数据的统一GSB结果。

我们对KwaiYii-13B-Chat模型以及同等参数规模的行业主流模型，均与ChatGPT(3.5)进行了对比和人工评估，其各自的得分如下图所示。从人工评估的结果来看，KwaiYii-13B-Chat超过了同等规模的开源模型，并接近ChatGPT同等水平。在内容创作、信息咨询、逻辑推理和数学解题上，基本与ChatGPT(3.5)效果相当。在多轮对话能力方面，KwaiYii-13B-Chat超过同等规模的开源模型，但与ChatGPT(3.5)仍有一定差距。注意：人工评估结果受到评测数据覆盖面、标注主观性等因素的影响，无法全面反映大语言模型的所有能力。

原创文章，作者：校长，如若转载，请注明出处：https://www.yundongfang.com/Yun256508.html

nbsp 信息咨询预训练模型

打赏

微信扫一扫不于多少！

支付宝扫一扫礼轻情意重

秒简相机是什么？秒简相机怎么用？

上一篇 2023年9月18日下午8:47

Google新AI模型「Gemini」

下一篇 2023年9月19日

微软Microsoft

Microsoft 引入了新的 Windows 11 24H2 更新 CPU 要求

Microsoft 最近增强了即将推出的 Windows 11 版本 24H2 的系统要求，表明有意阻止非常旧的处理器运行最新的操作系统。随着上个月向 Canary 频道发布 Wi…

2024年4月25日
Win 11

被黑客利用的Windows DOS到NT路径转换过程

SafeBreach 安全研究员 Or Yair 最近公布了 Windows DOS 到 NT 路径转换过程中的一系列漏洞，这些漏洞可能允许攻击者在不需要管理权限的情况下获得类似 …

2024年4月25日
微软Microsoft

Microsoft 由于错误警报而暂时撤回 Outlook 安全更新

Microsoft 最近撤回了 Outlook 的安全更新，因为发现它在用户打开 ICS 日历文件时会导致不正确的安全警报。该问题是在 12 月针对 Outlook 桌面应用程序的…

2024年4月25日
工具软件

Microsoft 通过最新的修补程序更新解决了 Exchange Server 问题，并添加了 ECC、HMA 支持

Microsoft 宣布发布修补程序更新，旨在解决在安装 2024 年 3 月安全更新后影响 Exchange 服务器的几个问题。除了修复这些问题之外，2024 年 4 月修补程序…

2024年4月25日
已解决：帐户图片错误此图片无法保存

帐户头像错误。当您尝试在 Windows 上为用户帐户设置个人资料图片时，屏幕上出现此图片无法保存错误消息，任何人都可能发生此图片。除了基本身份识别外，设置个人资料图片还可以帮助…

2024年4月19日 • 工具软件
此连接不是iPhone中Safari上的私人错误：修复

在iPhone上通过Safari浏览网站时，您可能会遇到此错误提示“此连接不是私人的”消息。有很多可能的原因可以归咎于此。如果您按照以下步骤对 Safari 中的问题进行故障排除，…

2024年4月16日 • 苹果Apple
远程桌面无法验证远程计算机的身份：修复

远程桌面连接或 RDC 并非完全防错。有很多设置可能会影响远程桌面连接。连接到远程桌面系统时，可能会出现此错误消息“远程桌面无法验证远程计算机的身份”。通常，主机和远程设备之间的时…

2024年4月1日 • 工具软件
Excel Visual Basic中的运行时错误13类型不匹配：修复

在 Excel 电子表格中执行 Visual Basic 代码时，您可能会遇到以下“运行时错误 13.类型不匹配“提示。Visual Basic 应用程序模块可帮助您增强工作表。但…

2024年3月29日 • 工具软件
工具软件

Array.prototype.map（）期望从箭头函数：Fix 返回值

Javascript 中可能会弹出错误提示“Array.prototype.map（） expects a return value from Arrow Function”（Ar…

2024年3月28日
工具软件

20 种专为内容创作者设计的 AI 工具

20 种专为内容创作者设计的 AI 工具在快节奏的内容创作世界中，人工智能（AI）改变了游戏规则。它提供了大量的工具来简化创作过程，使您能够以更高的效率制作引人入胜的高质量内…

2024年3月28日
CcmSetup 失败，错误代码为 0x80004005 [已解决]

CcmSetup 失败，出现错误代码0x80004005尝试将更新推送到域中的客户端电脑时经常出现。它是由配置错误、缺少关键服务、防火墙阻止更新或无法访问 MP（管理点）或 DP（…

2024年3月20日 • 工具软件
什么是默认的 Windows 11 密码以及如何在没有密码的情况下登录

默认密码通常是设置或购买新设备时附带的通用预定义密码。Windows 11 没有默认密码，但如果您被锁定，有一些解决方法可以重新获得访问权限。如何在没有默认密码的情况下登录 Wi…

2024年3月20日 • Win 11
Win 11

如何在Windows中使用和配置Sudo

随着 Windows 11 Insider Preview Build 26052 的发布，Sudo 被引入 Windows 11，拥有此版本及更高版本的用户可以使用它来以管理员身…

2024年3月20日
修复：ERR_PROXY_CONNECTION_FAILED错误

许多用户报告说没有互联网连接。代理服务器有问题，或者地址不正确，并在尝试在其计算机上使用浏览器时出现ERR_PROXY_CONNECTION_FAILED错误。要修复此连接错误，您…

2024年3月20日 • 工具软件
找不到 BCryptHash：修复它的 7 种方法

我们最近遇到了McUICnt.exe 找不到入口点，在动态链接库中找不到过程入口点 BCryptHash bcrypt.dll在多个设备上出现错误，有些设备运行 Windows 7…

2024年3月20日 • Win 11
在 Windows 资源管理器中搜索特殊字符：2 种简单方法

虽然我们知道 Windows 不允许在文件名中使用特殊字符，但大多数人都不知道它也无法使用标准搜索字段方法进行本机搜索。那么，如何在Windows（文件）资源管理器中搜索特殊字符呢…

2024年3月20日 • Win 11
HtcVComV64.sys 内存完整性错误 [已解决]

虽然内核隔离或内存完整性有助于保护 PC，但启用它可能对许多人来说具有挑战性。至少我们是这样，Windows 安全中心将 HtcVComV64.sys 列为不兼容的驱动程序。在这…

2024年3月19日 • 工具软件
如何打开Windows上RBF文件

Windows 使用 RBF 文件格式在软件安装期间创建临时备份，允许操作系统在安装不成功时还原内容。您可以使用合适的程序轻松打开RBF文件。 RBF （.rbf）文件通常存储在…

2024年3月19日 • 工具软件
Win 11

XPW文件扩展名：如何在Windows上打开它

XPW文件扩展名在当今是罕见的，因为创建这些文件的程序，由Intercon Associates Inc.开发的Accessible FormNet，已经过时了。不过，如果您有一些…

2024年3月18日
Ssvagent.exe：它是什么以及如何禁用Java进程

许多用户报告说看到与ssvagent.exe相关的错误消息，或者它触发了 PC 上的高 CPU 或 RAM 使用率。过去，我们在 Internet Explorer 上看到ssva…

2024年3月18日 • 工具软件
Uplay_r164.dll 找不到或不受信任的系统文件 [已解决]

该uplay_r164.dll由育碧开发，并被多款 Ubisoft Connect 游戏使用，包括《刺客信条》、《孤岛惊魂 4》、《全境封锁 2》和《看门狗》等。与该文件相关的两…

2024年3月18日 • 工具软件
什么是inetcpl.cpl以及如何修复其错误

netcpl.cpl 或 Internet 属性是一个内置实用程序，允许用户配置与 Internet 相关的设置，包括安全、隐私、证书、VPN 和加载项。它存储在以下位置：C:\W…

2024年3月18日 • 工具软件
4 种将 exFAT 转换为 FAT32 格式的方法 Windows 11

将文件系统从 exFAT 转换为 FAT32 涉及更改存储设备的格式。我们向您展示了实现这一目标的各种方法。我可以将 exFAT 更改为 FAT32 吗？是的，您可以将 exFA…

2024年3月18日 • Win 11
AHCI Port0 设备错误 [已解决]

启动时出现 American Megatrends AHCI Port0 Device Error（美国大趋势 AHCI 端口 0 设备错误），表示硬盘驱动器出现故障或 SATA …

2024年3月18日 • 工具软件
工具软件

什么是SbPFSvc.exe以及如何删除它？

SbPFSvc exe（可执行文件）文件是Sunbelt Personal Firewall安装的一部分，由Sunbelt Software开发。它的程序文件夹还包含各种其他可执行…

2024年3月18日

「快意」大规模语言模型（KwaiYii）

简介

Benchmark评测效果

人工评测结果

相关推荐