Mixtral8X22B 模型开源
Mixtral8X22B在只公布了一个磁力链接之后,又正式发布了模型的技术报告:
- Mixtral 8x22B是一个稀疏混合专家(SMoE)模型,它在141B个参数中仅激活了39B个,为其大小提供了无与伦比的成本效率。
- Mixtral 8x22B具有多种优势,包括对英语、法语、意大利语、德语和西班牙语的流利支持,强大的数学和编程能力,以及64K令牌的上下文窗口,允许从大型文档中精确回忆信息。
- 该模型以Apache 2.0许可证发布,是完全开放的,旨在促进AI领域的创新和合作。
- Mixtral 8x22B在性能和成本效率方面均优于其他模型,其稀疏激活模式使其比任何密集的70B模型都要快,同时比任何其他开放权重模型都更有能力。
- 在标准行业基准测试中,Mixtral 8x22B在推理、知识、多语言能力、数学和编程任务方面的表现均优于其他开放模型。
- 特别是,在数学和编程任务中,Mixtral 8x22B的表现最佳,其在GSM8K maj@8的得分为90.8%,在Math maj@4的得分为44.6%。
- Mistral AI鼓励开发者社区探索Mixtral 8x22B,并加入他们以共同定义AI前沿。
Mixtral 还发布了他们新版本的分词器。
这些分词器不仅支持文本与 Tokens 之间的互转,还增添了对工具的解析和结构化对话处理的能力。
还发布了应用程序接口中使用的验证和规范化代码。
项目地址:https://github.com/mistralai/mistral-common
原创文章,作者:校长,如若转载,请注明出处:https://www.yundongfang.com/Yun295814.html