DeepSeek 发布 DeepSeek-V2 模型
DeepSeeK 上周发布了DeepSeek-V2模型,将现在优秀 LLM 的价格战又抬上了一个新的高度,百万 Token 输出只需要 2 元人民币。开放平台送的十块钱总共有 500 万 Token 。冲个五十块钱估计够我用好几年。
模型测评结果为:
- 中文综合能力(AlignBench)开源模型中最强,与GPT-4-Turbo,文心4.0等闭源模型在评测中处于同一梯队
- 英文综合能力(MT-Bench)与最强的开源模型LLaMA3-70B同处第一梯队,超过最强MoE开源模型Mixtral 8x22B
- 知识、数学、推理、编程等榜单结果也位居前列
- 支持128K上下文窗口
DeepSeek-V2以236B总参数、21B激活,大致达到70B~110B Dense的模型能力,同时消耗的显存(KV Cache)只有同级别Dense模型的1/5~1/100,每token成本大幅降低。实际部署在8卡H800机器上,输入吞吐量超过每秒10万tokens,输出超过每秒5万tokens。
模型权重:https://huggingface.co/deepseek-ai
技术报告:https://github.com/deepseek-ai/DeepSeek-V2/blob/main/deepseek-v2-tech-report.pdf
体验模型:chat.deepseek.com
原创文章,作者:校长,如若转载,请注明出处:https://www.yundongfang.com/Yun296153.html