如何处理速率限制

先决条件

本指南假定您熟悉以下概念：

您可能会发现自己处于以下情况：由于您发出的请求过多，您受到模型提供程序 API 的速率限制。

例如，如果您正在运行许多并行查询来对测试数据集上的聊天模型进行基准测试，则可能会发生这种情况。

如果您遇到这种情况，您可以使用速率限制器来帮助将您发出请求的速率与允许的速率相匹配通过 API。

需要langchain-core >= 0.2.24

此功能是在langchain-core == 0.2.24.请确保您的软件包是最新的。

初始化速率限制器

Langchain 带有一个内置的内存速率限制器。此速率限制器是线程安全的，可以由同一进程中的多个线程共享。

提供的速率限制器只能限制每单位时间的请求数。如果您还需要根据大小进行限制，这将无济于事的请求。

from langchain_core.rate_limiters import InMemoryRateLimiter

rate_limiter = InMemoryRateLimiter(
    requests_per_second=0.1,  # <-- Super slow! We can only make a request once every 10 seconds!!
    check_every_n_seconds=0.1,  # Wake up every 100 ms to check whether allowed to make a request,
    max_bucket_size=10,  # Controls the maximum burst size.
)

API 参考：InMemoryRateLimiter

选择型号

选择任何模型rate_limiter，并通过rate_limiter属性。

import os
import time
from getpass import getpass

if "ANTHROPIC_API_KEY" not in os.environ:
    os.environ["ANTHROPIC_API_KEY"] = getpass()


from langchain_anthropic import ChatAnthropic

model = ChatAnthropic(model_name="claude-3-opus-20240229", rate_limiter=rate_limiter)

API 参考：ChatAnthropic

我们确认一下速率限制器是否有效。我们应该只能每 10 秒调用一次模型。

for _ in range(5):
    tic = time.time()
    model.invoke("hello")
    toc = time.time()
    print(toc - tic)

599073648452759
7502121925354
244257926940918
83088755607605
645203590393066