开源代码大模型DeepSeek Coder

2023年11月23日下午3:35 • 工具软件

DeepSeek Coder 由一系列代码语言模型组成，每个模型都在 2T 令牌上从头开始训练，其中 87% 是英文和中文的代码，13% 是自然语言。我们提供各种尺寸的代码模型，范围从1B到33B版本。每个模型都通过使用 16K 的窗口大小和额外的填空任务在项目级代码语料库上进行预训练，以支持项目级代码补全和填充。在编码能力方面，DeepSeek Coder 在多种编程语言和各种基准测试的开源代码模型中实现了最先进的性能。

海量训练数据：在2T token上从头开始训练，包括87%的代码和13%的英文和中文语言数据。
高度灵活和可扩展：提供 1B、5.7B、6.7B 和 33B 型号尺寸，使用户能够选择最适合其要求的设置。
卓越的模型性能：在 HumanEval、MultiPL-E、MBPP、DS-1000 和 APPS 基准测试中公开可用的代码模型中具有最先进的性能。
高级代码补全能力：16K窗口大小和填空任务，支持项目级代码补全和填空任务。

我们在各种与编码相关的基准测试中评估 DeepSeek Coder。此处仅报告 HumanEval（Python 和多语言）、MBPP 和 DS-1000 的 pass@1 结果：

结果表明，DeepSeek-Coder-Base-33B 的性能显着优于现有的开源代码 LLM。与CodeLlama-34B相比，在HumanEval Python、HumanEval Multilingual、MBPP和DS-1000上分别领先7.9%、9.3%、10.8%和5.9%。令人惊讶的是，我们的 DeepSeek-Coder-Base-7B 达到了 CodeLlama-34B 的性能。指令调整后的 DeepSeek-Coder-Instruct-33B 模型在 HumanEval 上的表现优于 GPT35-turbo，并在 MBPP 上达到与 GPT35-turbo 相当的结果。

项目链接

https://github.com/deepseek-ai/DeepSeek-Coder

原创文章，作者：校长，如若转载，请注明出处：https://www.yundongfang.com/Yun267376.html

填空性能语言

打赏

微信扫一扫不于多少！

支付宝扫一扫礼轻情意重

MuseScore: 一款开源免费的乐谱软件

上一篇 2023年11月23日

Windrecorder：连续记录屏幕内容，通过OCR技术识别记录内容

下一篇 2023年11月23日

工具软件

Reka Core 发布，一个 GPT-4 级别的多模态 LLM

Reka Core 发布，一个 GPT-4 级别的多模态 LLM Reka Core 发布，一个 GPT-4 级别的多模态 LLM 。看了一下介绍确实非常强大。它具有图像、视频和音…

2024年5月10日
Miraa： AI驱动的语言跟读学习

Miraa： AI驱动的语言跟读学习 Miraa是一个利用人工智能技术为媒体生成双语字幕和学习材料的应用。设计和体验都非常好。它具有以下特点: 使用AI将媒体转录为字幕[ 根据指…

工具软件 2024年5月10日
工具软件

Stability AI 引入的 StableCode Instruct 3B 编码 AI 模型

Stability AI 引入的 StableCode Instruct 3B 编码 AI 模型 Stability AI 推出了 StableCode Instruct 3B，这…

2024年3月28日
最新资讯

全球首款单插槽薄型英特尔 ARC A380 GPU

全球首款单插槽薄型英特尔 ARC A380 GPU 如果你是一个狂热的游戏玩家，或者喜欢设计和构建紧凑型PC版本，你可能面临着找到一个适合你设置的强大显卡的挑战。Arc A380 …

2024年3月27日
工具软件

Dragon’s Dogma 2 问题，Gamers Nexus 检查的基准测试

Dragon’s Dogma 2 问题，Gamers Nexus 检查的基准测试《龙之信条2》正在经历影响游戏玩法的重大技术问题，新的基准测试非常详细地突出了这些问题…

2024年3月26日
显示 Windows 11 性能叠加 [如何]

密切关注您的性能，尤其是在资源密集型任务期间非常重要，为此，您可以使用 Windows 11 性能叠加。如果您不熟悉此功能，本指南将向您展示您需要了解的有关它的所有信息。如何在…

2024年3月20日 • Win 11
如何将键盘设置更改为默认值 Windows 11？

如果您遇到键盘问题，则需要将键盘设置重置为默认值。在本指南中，我们将讨论将键盘设置更改回正常状态的步骤。如何将键盘设置更改回正常？ 1. 再次选择首选语言按 + 打开“设置”应…

2024年3月18日 • Win 11
如何擦除可用空间以提高性能

最近，我们看到越来越多的 Windows 用户试图擦除 PC 上的可用空间以提高性能。虽然这种方法没有错，但它通常不能达到预期的目的。可用空间是磁盘上不保存任何活动文件的存储空间…

2024年3月9日 • 工具软件
在 iPhone 上更改语言的 3 种方法

众所周知，iPhone 是所有电子产品中最人性化的，其中一个原因是它们可以根据您的喜好轻松进行个性化设置。在您可以个性化的内容中，您可以将语言更改为其他语言，这与您在设置 iPho…

2024年1月20日 • 苹果Apple
“大型语言模型”和“LLM”这些术语将变得不那么常见

“大型语言模型”和“LLM”这些术语将变得不那么常见在当今人工智能领域，“大型语言模型”（及其缩写LLM）经常被用作“任何先进人工智能模型”的简称。这是可以理解的，因为许多最初崭…

工具软件 2023年12月30日
TextDiffuser-2：为文本渲染释放语言模型的力量

TextDiffuser-2：为文本渲染释放语言模型的力量可以稳定在扩散模型中生成指定位置和风格的英文文本，它是借助的微调后的大语言模型来规划文本布局，以及编码文本的位置。

工具软件 2023年12月26日
工具软件

大型语言模型的最佳大小是多少

当涉足语言模型的世界时，人们很容易认为模型越大，它的性能就越好。这个概念植根于这样一种信念，即更多的数据和更多的参数意味着模型可以做更多的事情。但现实并非如此简单。语言模型的理想大…

2023年12月15日
工具软件

ChatGPT vs Bard vs Grok 使用相同的提示进行比较

ChatGPT vs Bard vs Grok 使用相同的提示进行比较如果您有兴趣了解更多关于使用相同提示时 ChatGPT vs Bard vs Grok 三种主要 AI 模型…

2023年12月12日
Infedit：自然语言图像编辑

Infedit：自然语言图像编辑这个通过提示词局部编辑图片的项目也不错，比如你可以让图片的人物衣服换色和改变背景不改变原始人物。相较于其他之前类似的项目，这个项目的理解更加准确对…

工具软件 2023年12月12日
工具软件

Meta发布Seamless Communication无障碍沟通模型

Meta发布Seamless Communication无障碍沟通模型 Meta发布了一个由多个模型组成的无障碍沟通模型，比较重要的就是SeamlessStreaming这个无缝流…

2023年12月12日
工具软件

ChatGPT 以及神经网络如何学会说话 30 年的旅程

由于神经网络和语言处理方面的惊人进步，计算机可以像另一个人一样理解和响应人类语言。从最初的怀疑时刻到目前的成就状态的旅程是一个不懈创新和发现的故事。问题的艺术 YouTube 频道…

2023年12月8日
工具软件

大型语言模型简介：它们是什么以及它们如何工作？

大型语言模型（LLM）已成为不断发展的技术世界中的一项革命性发展。大型语言模型具有多种应用，从自动完成句子等简单任务到翻译语言、生成创意内容，甚至参与类似人类的对话等复杂任务。…

2023年12月5日
工具软件

什么是 Translatotron 3;谷歌人工智能，可以把你变成一个实时的多语种

Google AI 的研究人员开发了一种名为 Translatotron 3 的新 AI 模型，可以将口语从一种语言翻译成另一种语言，而无需任何并行语音数据。这可以把你变成一个实时…

2023年12月2日
工具软件

10 个 ChatGPT 提示，轻松学习任何语言

语言学习的格局发生了显着的转变，这在很大程度上要归功于先进技术的进步。这种转变的核心是 ChatGPT，这个工具证明了我们处理语言习得的方式发生了革命性的变化。对于那些渴望提升语…

2023年12月1日
苹果Apple

在本地 Apple M3 Silicon Mac 上运行 Llama 2

Apple 早在 10 月就推出了新的 M3 Silicon，现在已经将其用于许多不同的系统，使用户能够从芯片系列提供的下一代处理中受益。如果您有兴趣了解有关在最新的 Apple …

2023年11月29日
工具软件

全新英特尔 Neural-Chat 7B LLM 在 Hugging Face 排行榜上击败原版 Mistral 7B 名列前茅

英特尔以 Neural-Chat 7B 的形式发布了一个新的大型语言模型，这是一个基于开源数据集 Open-Orca/SlimOrca 的 mistralai/Mistral-7B…

2023年11月28日
工具软件

固定它就可以了！Google 为 Chrome Canary 推出可固定的性能面板

Google 正在对 Chrome Canary 中的“性能”面板进行一些重大更改，使用户能够更轻松地管理浏览器的性能并改善浏览体验。谷歌对它做了一些改进。首先，他们已将“性能”…

2023年11月23日
阿里云研发大规模音频语言模型Qwen-Audio

Qwen-Audio（Qwen Large Audio Language Model）是阿里云提出的大模型系列Qwen（简称统一前文）的多模态版本。Qwen-Audio 接受多种音…

工具软件 2023年11月23日
工具软件

使用 Google Bard 进行语言学习：扩展您的语言视野

在我们日益全球化和相互联系的社会中，熟练使用各种语言进行交流的技能是一项至关重要且非常宝贵的资产。这种多语言能力不仅促进了跨文化联系，而且还在教育、职业发展和个人发展等不同领域释放…

2023年11月23日
工具软件

如何使用 ChatGPT 快速学习新语言

在我们这个瞬息万变的当代世界中，学习一门新语言的挑战可能令人生畏，特别是对于那些兼顾繁忙的日程安排和众多承诺的人来说。然而，随着尖端人工智能技术的引入，语言学习的格局发生了变革性转…

2023年11月20日

开源代码大模型DeepSeek Coder

项目链接

相关推荐