请在此处查看我们更新的指南。
每个组织都受速率限制的约束,速率限制决定了每秒可以发送多少请求。请求已达到此速率限制。
速率限制可以量化,这意味着它们在更短的时间内强制执行(例如,60,000 个请求/分钟可以强制执行为 1,000 个请求/秒)。发送过长的短暂请求或上下文 (prompts+max_tokens) 会导致速率限制错误,即使您在技术上低于每分钟速率限制也是如此。
我该如何解决?
-
在您的代码中包含指数退避逻辑。这将捕获并重试失败的请求。
-
对于令牌限制
-
减少max_tokens以匹配完成的大小。使用需求是根据此值估算的,因此降低它会降低您意外收到速率限制错误的可能性。例如,如果您的提示创建大约 400 个令牌的完成,则 max_tokens 值应该大约相同大小。
-
优化您的提示。您可以通过缩短说明、删除多余的单词和删除多余的示例来做到这一点。您可能需要处理您的提示并在这些更改后对其进行测试,以确保它仍然可以正常工作。较短提示的额外好处是可以降低您的成本。如果您需要帮助,请告诉我们。
-
-
对于请求限制
-
在一个数组中批处理你的提示。这将减少您需要提出的请求数量。prompt 参数最多可以包含 20 个不同的提示。
-
原创文章,作者:校长,如若转载,请注明出处:https://www.yundongfang.com/Yun212406.html