MLC LLM是一个新的开源项目,旨在支持在各种硬件平台和应用程序上部署大型语言模型。该项目包括一个框架,用于优化每个特定用例的模型性能,其任务是允许任何人在其设备上本地开发,优化和部署AI模型,而无需依赖服务器支持。本文将深入探讨MLC LLM及其功能。
MLC LLM的核心是一种称为机器学习编译(MLC)的技术。MLC 结合了机器学习编程抽象、学习驱动的搜索、编译和优化的库运行时,以便于部署。该方法旨在优化每个特定用例的模型性能,这在跨各种硬件平台部署大型语言模型时至关重要。
支持异构硬件规范
在各种硬件平台和应用程序上部署大型语言模型是一项复杂的挑战,这就是MLC LLM的亮点。该项目面临着支持异构硬件规范的挑战,包括不同型号的CPU、GPU和其他协处理器和加速器,以及解决内存限制和处理操作系统环境变化的挑战。
利用现有的开源项目
为了实现其目标,MLC LLM基于Apache TVM Unity,这是一个用于深度学习系统的编译器堆栈,并利用了Hugging Face和Google的令牌化器,以及开源LLM,如Llama,Vicuna,Dolly等。该项目包括一个C++ CLI 工具和一个 iOS 聊天应用程序,展示了如何集成已编译的工件和所需的预/后处理。
MLC LLM可以部署在各种硬件上,包括最近的Apple Silicon,AMD 显卡s,英伟达显卡s,以及英特尔 UHD 显卡 630 GPU。不同支持硬件的性能差异很大,一些 NVIDIA GPU、AMD RX6800 16G VRAM 和 2021 款 MacBook Pro M1 Max 的得分超过 20 个代币/秒。相比之下,M1 iPad Pro达到10.6个代币/秒,iPhone 14 Pro达到7.2个代币/秒。
根据项目维护者的说法,MLC LLM可以运行快速实验并尝试编译器优化,并最终轻松部署到所需的目标。该项目有一个专注于Web浏览器的配套项目WebLLM。如果您有兴趣了解有关 MLC 的更多信息,可以查看官方文档,该文档将指导您完成用于表示机器学习程序的关键抽象、自动优化技术以及如何优化依赖项、内存和性能。
原创文章,作者:校长,如若转载,请注明出处:https://www.yundongfang.com/Yun227264.html