DeepSeek 发布 DeepSeek-V2 模型

DeepSeek 发布 DeepSeek-V2 模型

DeepSeeK 上周发布了DeepSeek-V2模型,将现在优秀 LLM 的价格战又抬上了一个新的高度,百万 Token 输出只需要 2 元人民币。开放平台送的十块钱总共有 500 万 Token 。冲个五十块钱估计够我用好几年。

模型测评结果为:

  • 中文综合能力(AlignBench)开源模型中最强,与GPT-4-Turbo,文心4.0等闭源模型在评测中处于同一梯队
  • 英文综合能力(MT-Bench)与最强的开源模型LLaMA3-70B同处第一梯队,超过最强MoE开源模型Mixtral 8x22B
  • 知识、数学、推理、编程等榜单结果也位居前列
  • 支持128K上下文窗口

DeepSeek-V2以236B总参数、21B激活,大致达到70B~110B Dense的模型能力,同时消耗的显存(KV Cache)只有同级别Dense模型的1/5~1/100,每token成本大幅降低。实际部署在8卡H800机器上,输入吞吐量超过每秒10万tokens,输出超过每秒5万tokens。

模型权重:https://huggingface.co/deepseek-ai
技术报告:https://github.com/deepseek-ai/DeepSeek-V2/blob/main/deepseek-v2-tech-report.pdf

体验模型:chat.deepseek.com
87g0fk8z.webp

原创文章,作者:校长,如若转载,请注明出处:https://www.yundongfang.com/Yun296153.html

(0)
打赏 微信扫一扫不于多少! 微信扫一扫不于多少! 支付宝扫一扫礼轻情意重 支付宝扫一扫礼轻情意重
上一篇 2024年5月20日 下午12:36
下一篇 2024年5月20日 下午12:37

相关推荐