如果您使用过OpenAI API,则可能遇到过术语“速率限制”,但不确定它们到底指的是什么。本快速指南将更深入地了解什么是 ChatGPT 速率限制以及为什么它们很重要?如果您不熟悉速率限制,则导航起来可能有点棘手。如果您发现自己经常达到限制,您可能需要评估您的使用情况并做出相应的调整。您甚至可能需要考虑提交提高速率限制的请求。
什么是 ChatGPT 速率限制?
速率限制是指用户或客户端在设定的时间段内可以访问服务器的最大次数。从本质上讲,它们是 API 施加的限制。
速率限制是跨 API 的常见做法,实施速率限制的原因有很多:
- 防止滥用或误用:这可以方便地阻止恶意行为者使用请求使 API 过载,这可能会中断服务。
- 确保公平访问:这可确保没有一个人或组织可以通过发出过多的请求来占用服务,从而减慢其他所有人的 API 速度。
- 要管理基础架构上的负载,请执行以下操作: 如果请求急剧增加,则可能会对 API 征税。这可能会导致性能问题。因此,速率限制有助于为所有用户保持流畅一致的体验。
开放人工智能速率限制
OpenAI 根据所使用的特定终端节点和您拥有的帐户类型,在组织级别强制实施速率限制。您可以在账户管理页面上查看组织的速率限制。速率限制以两种方式度量:RPM(每分钟请求数)和 TPM(每分钟令牌数)。下表显示了默认速率限制:
- 免费试用用户
- 文本和嵌入:3 RPM,150,000 TPM
- 聊天:3 转/分,40,000 TPM
- 编辑:3 转/分,150,000 TPM
- 图像:5张图像/分钟
- 音频:3 转/分
- 即用即付用户(前 48 小时)
- 文本和嵌入:60 RPM,250,000 TPM
- 聊天:60 转/分,60,000 TPM
- 编辑:20 转/分,150,000 TPM
- 图像:50张图像/分钟
- 音频:50 转/分
- 即用即付用户(48 小时后)
- 文本和嵌入:3,500 RPM,350,000 TPM
- 聊天:3,500 转/分,90,000 TPM
- 编辑:20 转/分,150,000 TPM
- 图像:50张图像/分钟
- 音频:50 转/分
填写速率限制提高申请表后,可以根据您的使用案例提高速率限制。
TPM(每分钟令牌数)单位因模型版本而异:
- 达芬奇:每分钟 1 个代币
- 居里:每分钟 25 个代币
- 巴贝奇:每分钟 100 个代币
- Ada:每分钟 200 个代币
简单来说,这意味着与达芬奇模型相比,您每分钟可以向 Ada 模型发送大约 200 倍的代币。
GPT-4 速率限制
在 GPT-4 的有限测试版推出期间,该模型具有更严格的速率限制以满足需求。对于即用即付用户,gpt-4/gpt-4-0613 的默认速率限制为 40k TPM 和 200 RPM。对于 gpt-4-32k/gpt-4-32k-0613,限制为 150k TPM 和 1k RPM。由于容量限制,OpenAI 目前无法满足提高速率限制的请求。
如果您的速率限制为每分钟 60 个请求和每分钟 150k 个达芬奇令牌,您将受到达到请求/最小上限或令牌用完的限制 – wh
永远先发生。如果设法达到速率限制,则需要稍微暂停程序以允许下一个请求。例如,如果每分钟的最大请求数为 60,则相当于每秒发送一个请求。如果每 800 毫秒发送一个请求,则在达到速率限制后,只需将程序暂停 200 毫秒,然后就可以发送另一个请求。
但是,达到速率限制确实会带来后果。您可能会遇到如下所示的错误:
Rate limit reached for default-text-davinci-002 in organization org-{id} on requests per min. Limit: 20.000000 / min. Current: 24.000000 / min.
这意味着您在短时间内发出了太多请求,并且 API 拒绝满足进一步的请求,直到经过足够的时间。
代币和速率限制
提供的每个模型都有最大数量的令牌,可以在发出请求时作为输入传入。例如,如果使用 text-ada-001,则每个请求可以发送到此模型的最大令牌数为 2,048 个令牌。不能增加模型接收的最大令牌数。
虽然速率限制看起来很复杂,但它们对于保持 API 的平稳运行和确保每个人都能公平访问至关重要。通过了解并在分配的限制内工作,您将能够有效地使用 OpenAI API,而不会中断。
原创文章,作者:校长,如若转载,请注明出处:https://www.yundongfang.com/Yun237622.html