MPT-7B一个新的开源、商业可用LLM标准

MPT-7B是MosaicML基金会系列的最新产品,一个从头开始训练的、基于1T文本和代码的Transformer。MPT-7B在MosaicML平台上进行了9.5天的训练。
  • 开源可商用,能力与LLaMA-7B相当
  • 有三个微调模型,除了基本的MPT-7B之外:MPT-7B-Instruct、MPT-7B-Chat和MPT-7B-StoryWriter-65k+
  • 其中最后一个写作模型支持65k的上下文!是GPT4的两倍

MPT-7B Base

MPT-7B Base是一种具有6.7B参数的解码器式变压器。它接受了由MosaicML数据团队策划的1T文本和代码标记的训练。这个基本模型包括用于快速训练和推理的FlashAttention和用于对长上下文长度进行微调和外推的ALiBi。
  • License: Apache-2.0
  • HuggingFace: https://huggingface.co/mosaicml/mpt-7b

MPT-7B-StoryWriter-65k+

MPT-7B-StoryWriter-65k+是一种设计用于读取和编写具有超长上下文长度的故事的模型。它是通过在books3数据集的过滤小说子集上对上下文长度为65k令牌的MPT-7B进行微调而构建的。在推理时,由于ALiBi, MPT-7B-StoryWriter-65k+甚至可以推断超过65k个令牌,并且我们已经在A100-80GB gpu的单个节点上演示了长达84k个令牌的代。

  • License: Apache-2.0
  • HuggingFace: https://huggingface.co/mosaicml/mpt-7b-storywriter

MPT-7B-Instruct

MPT-7B-Instruct是一种简短指令遵循模型。通过对我们也发布的数据集进行微调MPT-7B构建,该数据集来自Databricks Dolly-15k和Anthropic的有用和无害数据集。

  • License: CC-By-SA-3.0
  • HuggingFace : https://huggingface.co/mosaicml/mpt-7b-instruct

MPT-7B-Chat

MPT-7B-Chat是一个类似聊天机器人的对话生成模型。通过在ShareGPT-Vicuna, HC3, Alpaca, Helpful and Harmless,Evol-Instruct 数据集上微调MPT-7B建立。

  • License: CC-By-NC-SA-4.0 (non-commercial use only)
  • HuggingFace Link: https://huggingface.co/mosaicml/mpt-7b-chat

测试地址:https://huggingface.co/spaces/mosaicml/mpt-7b-chat

原创文章,作者:校长,如若转载,请注明出处:https://www.yundongfang.com/Yun267462.html

(0)
打赏 微信扫一扫不于多少! 微信扫一扫不于多少! 支付宝扫一扫礼轻情意重 支付宝扫一扫礼轻情意重
上一篇 2023年11月23日
下一篇 2023年11月23日

相关推荐