认识 Groq,一个闪电般快速的 AI 加速器,击败了 ChatGPT 和 Gemini

在使用 ChatGPT 时,尤其是在 GPT-4 模型中,您一定已经注意到该模型对查询的响应速度有多慢。更不用说,基于大型语言模型的语音助手,如 ChatGPT 的语音聊天功能或最近发布的 Gemini AI,由于 LLM 的高延迟,它取代了 Android 手机上的 Google Assistant,速度甚至更慢。但这一切可能很快就会改变,这要归功于 Groq 强大的新 LPU(语言处理单元)推理引擎。

Groq 让世界大吃一惊。请注意,这不是埃隆·马斯克(Elon Musk)的Grok,它是X(以前称为Twitter)上可用的AI模型。Groq 的 LPU 推理引擎在运行 7B 模型时每秒可以生成 500 个代币。当运行 250B 模型时,它归结为每秒大约 70 个令牌。这与 OpenAI 的 ChatGPT 相去甚远,后者在 GPU 驱动的 Nvidia 芯片上运行,每秒提供约 30 到 60 个代币。

Groq 由前 Google TPU 工程师构建

Groq 不是一个 AI 聊天机器人,而是一个 AI 推理芯片,它在 AI 硬件领域与 Nvidia 等行业巨头竞争。它由乔纳森·罗斯(Jonathan Ross)于2016年共同创立,他在谷歌工作期间共同创立了该团队,以构建谷歌第一个用于机器学习的TPU(张量处理单元)芯片。

后来,许多员工离开了谷歌的TPU团队,并创建了Groq来为下一代计算构建硬件

什么是 Groq 的 LPU?

与 Nvidia 等老牌公司相比,Groq 的 LPU 引擎之所以如此之快,是因为它完全建立在一种不同的方法之上。

根据首席执行官乔纳森·罗斯(Jonathan Ross)的说法,Groq首先创建了软件堆栈和编译器,然后设计了芯片。它遵循软件优先的思维方式,使性能“确定性”——这是在 AI 推理中获得快速、准确和可预测结果的关键概念。

至于 Groq 的 LPU 架构,它类似于 ASIC 芯片(专用集成电路)的工作方式,并在 14nm 节点上开发。它不是用于各种复杂任务的通用芯片,而是为特定任务定制设计的,在这种情况下,它是处理大型语言模型中的数据序列。另一方面,CPU 和 GPU 可以做更多的事情,但也会导致性能延迟和延迟增加。

通过量身定制的编译器,该编译器可以准确了解指令周期在芯片中的工作方式,因此延迟大大降低。编译器获取指令并将它们分配到正确的位置,从而进一步减少延迟。别忘了,每个 Groq LPU 芯片都配备了 230MB 的片上 SRAM,以提供高性能和低延迟以及更高的效率。

谈到 Groq 芯片是否可以用于训练 AI 模型的问题,正如我上面所说,它是专门为 AI 推理而构建的。它没有任何高带宽内存 (HBM),这是训练和微调模型所必需的。

Groq 还指出,HBM 内存会导致整个系统的不确定性,从而增加延迟。因此,不可以,您无法在 Groq LPU 上训练 AI 模型

我们测试了 Groq 的 LPU 推理引擎

您可以前往 Groq 的网站(访问)体验超快的性能,而无需帐户或订阅。目前,它拥有两个 AI 模型,包括 Llama 70B 和 Mixtral-8x7B。为了检查 Groq 的 LPU 性能,我们在 Mixtral-8x7B-32K 模型上运行了一些提示,这是目前最好的开源模型之一。

groq-running-mixtral-model

Groq 的 LPU 以每秒 527 个代币的速度生成了出色的输出,在 7B 模型上仅用了 1.57 秒即可生成 868 个代币(3846 个字符)。在 70B 型号上,它的速度降低到每秒 275 个代币,但仍远高于竞争对手。

chatgpt-tokens-per-second

为了比较 Groq 的 AI 加速器性能,我们对 ChatGPT(GPT-3.5,175B 模型)进行了相同的测试,并手动计算了性能指标。ChatGPT 使用 Nvidia 尖端的 Tensor-core GPU,以每秒 61 个代币的速度生成输出,需要 9 秒才能生成 557 个代币(3090 个字符)。

gemini-tokens-per-second

为了更好地进行比较,我们对运行在 Google Cloud TPU v5e 加速器上的免费版 Gemini(由 Gemini Pro 提供支持)进行了相同的测试。谷歌尚未透露 Gemini Pro 型号的型号尺寸。它的速度为每秒 56 个代币,需要 15 秒才能生成 845 个代币(4428 个字符)。

与其他服务提供商相比,ray-project 进行了广泛的 LLMPerf 测试,发现 Groq 的表现比其他提供商好得多。

tokens-per-second-speed-of-groq
图片提供:Ray-project / GitHub.com

虽然我们还没有测试过它,但 Groq LPU 也适用于扩散模型,而不仅仅是语言模型。根据演示,它可以在一秒内生成 1024px 的不同风格的图像。这是非常了不起的。

Groq vs Nvidia:Groq 怎么说?

Groq 在一份报告中表示,其 LPU 是可扩展的,可以使用跨 264 个芯片的光互连链接在一起。可以使用交换机进一步扩展它,但会增加延迟。据首席执行官乔纳森·罗斯(Jonathan Ross)称,该公司正在开发可跨4,128个芯片扩展的集群,这些芯片将于2025年发布,并且是在三星的4nm工艺节点上开发的。

在 Groq 在 70B Llama 2 型号上使用 576 个 LPU 执行的基准测试中,它执行 AI 推理的时间是 Nvidia H100 GPU 集群的十分之一。

不仅如此,Nvidia GPU 需要 10 焦耳到 30 焦耳的能量来生成令牌作为响应,而 Groq 只需要 1 焦耳到 3 焦耳。总而言之,该公司表示,Groq LPU 为 AI 推理任务提供了 10 倍的速度,成本是 Nvidia GPU 的 1/10。

这对最终用户意味着什么?

总的来说,这是人工智能领域的一个令人兴奋的发展,随着LPU的引入,用户将体验到与人工智能系统的即时交互。推理时间的显著缩短意味着用户可以在使用语音、馈送图像或生成图像时立即使用多模态系统

原创文章,作者:校长,如若转载,请注明出处:https://www.yundongfang.com/Yun283468.html

(0)
打赏 微信扫一扫不于多少! 微信扫一扫不于多少! 支付宝扫一扫礼轻情意重 支付宝扫一扫礼轻情意重
上一篇 2024年2月22日 下午9:33
下一篇 2024年2月22日 下午9:38

相关推荐