Upstash Ratelimit 回调

在本指南中，我们将介绍如何根据请求数或令牌数添加速率限制UpstashRatelimitHandler.此处理程序使用 Upstash 的 ratelimit 库，该库使用 Upstash Redis。

Upstash Ratelimit 的工作原理是每次limit方法。检查并更新用户的剩余令牌/请求。根据剩余的 token，我们可以停止执行昂贵的作，例如调用 LLM 或查询 vector store：

response = ratelimit.limit()
if response.allowed:
    execute_costly_operation()

UpstashRatelimitHandler允许您在几分钟内将 RateLimit 逻辑合并到您的链中。

首先，您需要转到 Upstash 控制台并创建一个 redis 数据库（请参阅我们的文档）。创建数据库后，您需要设置环境变量：

UPSTASH_REDIS_REST_URL="****"
UPSTASH_REDIS_REST_TOKEN="****"

接下来，您需要使用以下命令安装 Upstash Ratelimit 和 Redis 库：

pip install upstash-ratelimit upstash-redis

您现在可以为您的链添加速率限制了！

每个请求的速率限制

假设我们想允许我们的用户每分钟调用我们的链 10 次。实现此目的非常简单：

# set env variables
import os

os.environ["UPSTASH_REDIS_REST_URL"] = "****"
os.environ["UPSTASH_REDIS_REST_TOKEN"] = "****"

from langchain_community.callbacks import UpstashRatelimitError, UpstashRatelimitHandler
from langchain_core.runnables import RunnableLambda
from upstash_ratelimit import FixedWindow, Ratelimit
from upstash_redis import Redis

# create ratelimit
ratelimit = Ratelimit(
    redis=Redis.from_env(),
    # 10 requests per window, where window size is 60 seconds:
    limiter=FixedWindow(max_requests=10, window=60),
)

# create handler
user_id = "user_id"  # should be a method which gets the user id
handler = UpstashRatelimitHandler(identifier=user_id, request_ratelimit=ratelimit)

# create mock chain
chain = RunnableLambda(str)

# invoke chain with handler:
try:
    result = chain.invoke("Hello world!", config={"callbacks": [handler]})
except UpstashRatelimitError:
    print("Handling ratelimit.", UpstashRatelimitError)

API 参考：UpstashRatelimitError | UpstashRatelimitHandler | RunnableLambda

Error in UpstashRatelimitHandler.on_chain_start callback: UpstashRatelimitError('Request limit reached!')
``````output
Handling ratelimit. <class 'langchain_community.callbacks.upstash_ratelimit_callback.UpstashRatelimitError'>

请注意，我们将处理程序传递给invoke方法，而不是在定义链时传递处理程序。

对于除FixedWindow，请参阅 upstash-ratelimit 文档。

在我们的管道中执行任何步骤之前，ratelimit 将检查用户是否已超过请求限制。㞖UpstashRatelimitError被提升。

每个令牌的速率限制

另一种选择是根据以下条件对链调用进行速率限制：

提示中的令牌数
提示和 LLM 完成中的令牌数量

这仅在您的链中有 LLM 时有效。另一个要求是，您使用的 LLM 应返回其LLMOutput.

运作方式

处理程序将在调用 LLM 之前获取剩余的令牌。如果剩余令牌大于 0，则调用 LLM。否则UpstashRatelimitError将提高。

调用 LLM 后，将使用 Token 使用信息从用户的剩余 Token 中减去。在链的此阶段不会引发错误。

配置

对于第一个配置，只需像这样初始化处理程序：

ratelimit = Ratelimit(
    redis=Redis.from_env(),
    # 1000 tokens per window, where window size is 60 seconds:
    limiter=FixedWindow(max_requests=1000, window=60),
)

handler = UpstashRatelimitHandler(identifier=user_id, token_ratelimit=ratelimit)

对于第二个配置，以下是初始化处理程序的方法：

ratelimit = Ratelimit(
    redis=Redis.from_env(),
    # 1000 tokens per window, where window size is 60 seconds:
    limiter=FixedWindow(max_requests=1000, window=60),
)

handler = UpstashRatelimitHandler(
    identifier=user_id,
    token_ratelimit=ratelimit,
    include_output_tokens=True,  # set to True
)

您还可以同时基于请求和令牌使用速率限制，只需将request_ratelimit和token_ratelimit参数。

下面是一个使用 LLM 的链的示例：

# set env variables
import os

os.environ["UPSTASH_REDIS_REST_URL"] = "****"
os.environ["UPSTASH_REDIS_REST_TOKEN"] = "****"
os.environ["OPENAI_API_KEY"] = "****"

from langchain_community.callbacks import UpstashRatelimitError, UpstashRatelimitHandler
from langchain_core.runnables import RunnableLambda
from langchain_openai import ChatOpenAI
from upstash_ratelimit import FixedWindow, Ratelimit
from upstash_redis import Redis

# create ratelimit
ratelimit = Ratelimit(
    redis=Redis.from_env(),
    # 500 tokens per window, where window size is 60 seconds:
    limiter=FixedWindow(max_requests=500, window=60),
)

# create handler
user_id = "user_id"  # should be a method which gets the user id
handler = UpstashRatelimitHandler(identifier=user_id, token_ratelimit=ratelimit)

# create mock chain
as_str = RunnableLambda(str)
model = ChatOpenAI()

chain = as_str | model

# invoke chain with handler:
try:
    result = chain.invoke("Hello world!", config={"callbacks": [handler]})
except UpstashRatelimitError:
    print("Handling ratelimit.", UpstashRatelimitError)

API 参考：UpstashRatelimitError | UpstashRatelimitHandler | RunnableLambda | 聊天OpenAI

Error in UpstashRatelimitHandler.on_llm_start callback: UpstashRatelimitError('Token limit reached!')
``````output
Handling ratelimit. <class 'langchain_community.callbacks.upstash_ratelimit_callback.UpstashRatelimitError'>