如何处理模型速率限制
运行大型评估任务时,一个常见问题是遇到第三方 API 的速率限制,通常来自模型提供商。 有几种方法可以应对速率限制。
使用 langchain 个速率限制器(仅限 Python)
如果您在应用程序或评估器中使用 langchain Python ChatModels,您可以为模型添加速率限制器,从而在客户端控制向模型提供商 API 发送请求的频率,以避免速率限制错误。
- Python
from langchain.chat_models import init_chat_model
from langchain_core.rate_limiters import InMemoryRateLimiter
rate_limiter = InMemoryRateLimiter(
requests_per_second=0.1, # <-- Super slow! We can only make a request once every 10 seconds!!
check_every_n_seconds=0.1, # Wake up every 100 ms to check whether allowed to make a request,
max_bucket_size=10, # Controls the maximum burst size.
)
llm = init_chat_model("gpt-4o", rate_limiter=rate_limiter)
def app(inputs: dict) -> dict:
response = llm.invoke(...)
...
def evaluator(inputs: dict, outputs: dict, reference_outputs: dict) -> dict:
response = llm.invoke(...)
...
有关如何配置速率限制器的更多信息,请参阅 langchain 文档。
使用指数退避重试
处理速率限制错误的一种非常常见的方法是使用指数退避进行重试。 使用指数退避重试意味着在每次重试之间以(呈指数增长的)递增等待时间重复重试失败的请求。 这一过程将持续进行,直到请求成功或达到最大请求次数。
使用 langchain
如果您正在使用 langchain 组件,可以通过 .with_retry(...) / .withRetry() 方法为所有模型调用添加重试功能:
- Python
- TypeScript
from langchain import init_chat_model
llm_with_retry = init_chat_model("gpt-4o-mini").with_retry(stop_after_attempt=6)
import { initChatModel } from "langchain/chat_models/universal";
const llm = await initChatModel("gpt-4o", {
modelProvider: "openai",
});
const llmWithRetry = llm.withRetry({ stopAfterAttept: 2 });
查看 langchain Python 和 JS API 参考以获取更多信息。
无需 langchain
如果您不使用 langchain,可以使用其他库如 tenacity(Python)或 backoff(Python)来实现带指数退避的重试机制,也可以从头开始自行实现。 有关如何操作的示例,请参见 OpenAI 文档。
限制最大并发量
限制您向应用程序和评估器发起的并发调用次数,是降低模型调用频率的另一种方法,从而避免速率限制错误。 max_concurrency 可直接设置在 evaluate() / aevaluate() 函数中。 这通过将数据集在多个线程间有效分割来实现评估的并行化。
- Python
- TypeScript
from langsmith import aevaluate
results = await aevaluate(
...
max_concurrency=4,
)
import { evaluate } from "langsmith/evaluation";
await evaluate(..., {
...,
maxConcurrency: 4,
});