如何实现按用户检索

本指南演示了如何配置检索链的运行时属性。一个示例应用是根据用户限制可供检索器使用的文档。

在构建检索应用时，您通常需要考虑多个用户的需求。这意味着您可能不仅需要为单个用户存储数据，还需要为多个不同用户存储数据，并且他们之间不应能看到彼此的数据。这要求您能够配置检索链，使其仅检索特定信息。这通常涉及两个步骤。

步骤 1：确保您使用的检索器支持多用户

目前，LangChain 中没有统一的标志或过滤器来实现此功能。相反，每个向量存储和检索器可能都有自己的实现方式，且名称可能各不相同（如命名空间、多租户等）。对于向量存储，这通常作为关键字参数暴露，在 similarity_search 时传入。通过阅读文档或源代码，确定您使用的检索器是否支持多用户，如果支持，如何使用。

注意：为不支持（或未记录支持）多用户功能的检索器添加文档和/或支持，是贡献给 LangChain 的一个绝佳方式

步骤2：将该参数作为链的可配置字段添加

这将使您能够轻松调用链，并在运行时配置任何相关标志。有关配置的更多信息，请参阅此文档。

现在，在运行时，您可以使用可配置字段调用此链。

代码示例

让我们来看一个具体的代码示例，了解其实际表现。在此示例中，我们将使用 Pinecone。

要配置 Pinecone，请设置以下环境变量：

PINECONE_API_KEY: 您的 Pinecone API 密钥

from langchain_openai import OpenAIEmbeddings
from langchain_pinecone import PineconeVectorStore

embeddings = OpenAIEmbeddings()
vectorstore = PineconeVectorStore(index_name="test-example", embedding=embeddings)

vectorstore.add_texts(["I worked at Kensho"], namespace="harrison")
vectorstore.add_texts(["I worked at Facebook"], namespace="ankush")

API 参考：OpenAIEmbeddings | PineconeVectorStore

['f907aab7-77c7-4347-acc2-6859f8142f92']

namespace 的 pinecone 参数可用于分离文档

# This will only get documents for Ankush
vectorstore.as_retriever(search_kwargs={"namespace": "ankush"}).invoke(
    "where did i work?"
)

[Document(id='f907aab7-77c7-4347-acc2-6859f8142f92', metadata={}, page_content='I worked at Facebook')]

# This will only get documents for Harrison
vectorstore.as_retriever(search_kwargs={"namespace": "harrison"}).invoke(
    "where did i work?"
)

[Document(id='16061fc5-c6fc-4f45-a3b3-23469d7996af', metadata={}, page_content='I worked at Kensho')]

现在我们可以创建用于问答的链了。

让我们先选择一个大语言模型。

选择聊天模型:

pip install -qU "langchain[openai]"

import getpass
import os

if not os.environ.get("OPENAI_API_KEY"):
  os.environ["OPENAI_API_KEY"] = getpass.getpass("Enter API key for OpenAI: ")

from langchain.chat_models import init_chat_model

llm = init_chat_model("gpt-4o-mini", model_provider="openai")

这将遵循 RAG 教程中的基本实现，但我们将允许检索步骤可配置。

from langchain_core.prompts import ChatPromptTemplate
from langchain_core.runnables import ConfigurableField

template = """Answer the question based only on the following context:
{context}
Question: {question}
"""
prompt = ChatPromptTemplate.from_template(template)

retriever = vectorstore.as_retriever()

API 参考：ChatPromptTemplate | ConfigurableField

在这里，我们标记检索器具有可配置字段。所有向量存储检索器都有 search_kwargs 作为字段。这只是一个字典，包含特定于向量存储的字段。

这将允许我们在调用链时传入 search_kwargs 的值。

configurable_retriever = retriever.configurable_fields(
    search_kwargs=ConfigurableField(
        id="search_kwargs",
        name="Search Kwargs",
        description="The search kwargs to use",
    )
)

现在我们可以使用可配置的检索器来创建链。

from langchain_core.documents import Document
from langchain_core.runnables import RunnableConfig
from langgraph.graph import START, StateGraph
from typing_extensions import List, TypedDict


class State(TypedDict):
    question: str
    context: List[Document]
    answer: str


def retrieve(state: State, config: RunnableConfig):
    retrieved_docs = configurable_retriever.invoke(state["question"], config)
    return {"context": retrieved_docs}


def generate(state: State):
    docs_content = "\n\n".join(doc.page_content for doc in state["context"])
    messages = prompt.invoke({"question": state["question"], "context": docs_content})
    response = llm.invoke(messages)
    return {"answer": response.content}


graph_builder = StateGraph(State).add_sequence([retrieve, generate])
graph_builder.add_edge(START, "retrieve")
graph = graph_builder.compile()

API 参考：文档 |RunnableConfig | StateGraph

from IPython.display import Image, display

display(Image(graph.get_graph().draw_mermaid_png()))

现在我们可以使用可配置选项调用该链。 search_kwargs 是可配置字段的 ID。该值是用于 Pinecone 的搜索参数。

result = graph.invoke(
    {"question": "Where did the user work?"},
    config={"configurable": {"search_kwargs": {"namespace": "harrison"}}},
)

result

{'question': 'Where did the user work?',
 'context': [Document(id='16061fc5-c6fc-4f45-a3b3-23469d7996af', metadata={}, page_content='I worked at Kensho')],
 'answer': 'The user worked at Kensho.'}

result = graph.invoke(
    {"question": "Where did the user work?"},
    config={"configurable": {"search_kwargs": {"namespace": "ankush"}}},
)

result

{'question': 'Where did the user work?',
 'context': [Document(id='f907aab7-77c7-4347-acc2-6859f8142f92', metadata={}, page_content='I worked at Facebook')],
 'answer': 'The user worked at Facebook.'}

有关操作特定向量存储的详细信息，请参阅集成页面。

代码示例​

代码示例