构建聊天机器人
本教程以前使用了 RunnableWithMessageHistory 抽象。您可以在 v0.2 文档中访问该版本的文档。
从 LangChain v0.3 版本开始,我们建议 LangChain 用户利用 LangGraph 持久化来整合memory导入到新的 LangChain 应用程序中。
如果您的代码已经依赖于RunnableWithMessageHistory或BaseChatMessageHistory,则无需进行任何更改。我们不打算在不久的将来弃用此功能,因为它适用于简单的聊天应用程序和任何使用RunnableWithMessageHistory将继续按预期工作。
有关更多详细信息,请参阅如何迁移到 LangGraph 内存。
概述
我们将通过一个示例来说明如何设计和实现 LLM 支持的聊天机器人。 这个聊天机器人将能够进行对话并记住之前与聊天模型的互动。
请注意,我们构建的这个聊天机器人将仅使用语言模型进行对话。 您可能正在寻找其他几个相关概念:
本教程将介绍对这两个更高级的主题有帮助的基础知识,但如果您愿意,请直接跳到那里。
设置
Jupyter 笔记本
本指南(以及文档中的大多数其他指南)使用 Jupyter 笔记本,并假设读者也使用 Jupyter 笔记本。Jupyter 笔记本非常适合学习如何使用 LLM 系统,因为很多时候事情可能会出错(意外输出、API 关闭等),在交互式环境中浏览指南是更好地了解它们的好方法。
本教程和其他教程可能在 Jupyter 笔记本中运行最方便。有关如何安装的说明,请参阅此处。
安装
对于本教程,我们将需要langchain-core和langgraph.本指南要求langgraph >= 0.2.28.
- 果仁
- 康达
pip install langchain-core langgraph>0.2.27
conda install langchain-core langgraph>0.2.27 -c conda-forge
有关更多详细信息,请参阅我们的安装指南。
LangSmith
您使用 LangChain 构建的许多应用程序将包含多个步骤,其中包含多次调用 LLM 调用。 随着这些应用程序变得越来越复杂,能够检查您的链条或代理内部到底发生了什么变得至关重要。 最好的方法是使用 LangSmith。
在上面的链接中注册后,请确保设置环境变量以开始记录跟踪:
export LANGSMITH_TRACING="true"
export LANGSMITH_API_KEY="..."
或者,如果在笔记本中,您可以通过以下方式设置它们:
import getpass
import os
os.environ["LANGSMITH_TRACING"] = "true"
os.environ["LANGSMITH_API_KEY"] = getpass.getpass()
快速入门
首先,让我们学习如何单独使用语言模型。LangChain 支持许多不同的语言模型,您可以互换使用——请在下方选择您想要使用的语言模型!
pip install -qU "langchain[openai]"
import getpass
import os
if not os.environ.get("OPENAI_API_KEY"):
os.environ["OPENAI_API_KEY"] = getpass.getpass("Enter API key for OpenAI: ")
from langchain.chat_models import init_chat_model
model = init_chat_model("gpt-4o-mini", model_provider="openai")
我们首先直接使用模型。ChatModel是 LangChain “Runnables” 的实例,这意味着它们公开了一个用于与它们交互的标准接口。要简单地调用模型,我们可以将消息列表传递给.invoke方法。
from langchain_core.messages import HumanMessage
model.invoke([HumanMessage(content="Hi! I'm Bob")])
AIMessage(content='Hi Bob! How can I assist you today?', additional_kwargs={'refusal': None}, response_metadata={'token_usage': {'completion_tokens': 10, 'prompt_tokens': 11, 'total_tokens': 21, 'completion_tokens_details': {'accepted_prediction_tokens': 0, 'audio_tokens': 0, 'reasoning_tokens': 0, 'rejected_prediction_tokens': 0}, 'prompt_tokens_details': {'audio_tokens': 0, 'cached_tokens': 0}}, 'model_name': 'gpt-4o-mini-2024-07-18', 'system_fingerprint': 'fp_0705bf87c0', 'finish_reason': 'stop', 'logprobs': None}, id='run-5211544f-da9f-4325-8b8e-b3d92b2fc71a-0', usage_metadata={'input_tokens': 11, 'output_tokens': 10, 'total_tokens': 21, 'input_token_details': {'audio': 0, 'cache_read': 0}, 'output_token_details': {'audio': 0, 'reasoning': 0}})
该模型本身没有任何状态的概念。例如,如果您提出后续问题:
model.invoke([HumanMessage(content="What's my name?")])
AIMessage(content="I'm sorry, but I don't have access to personal information about users unless it has been shared with me in the course of our conversation. How can I assist you today?", additional_kwargs={'refusal': None}, response_metadata={'token_usage': {'completion_tokens': 34, 'prompt_tokens': 11, 'total_tokens': 45, 'completion_tokens_details': {'accepted_prediction_tokens': 0, 'audio_tokens': 0, 'reasoning_tokens': 0, 'rejected_prediction_tokens': 0}, 'prompt_tokens_details': {'audio_tokens': 0, 'cached_tokens': 0}}, 'model_name': 'gpt-4o-mini-2024-07-18', 'system_fingerprint': 'fp_0705bf87c0', 'finish_reason': 'stop', 'logprobs': None}, id='run-a2d13a18-7022-4784-b54f-f85c097d1075-0', usage_metadata={'input_tokens': 11, 'output_tokens': 34, 'total_tokens': 45, 'input_token_details': {'audio': 0, 'cache_read': 0}, 'output_token_details': {'audio': 0, 'reasoning': 0}})
让我们看一下示例 LangSmith 跟踪
我们可以看到,它没有将之前的对话转化为上下文,并且无法回答问题。 这会导致糟糕的聊天机器人体验!
为了解决这个问题,我们需要将整个对话历史传递到模型中。让我们看看当我们这样做时会发生什么:
from langchain_core.messages import AIMessage
model.invoke(
[
HumanMessage(content="Hi! I'm Bob"),
AIMessage(content="Hello Bob! How can I assist you today?"),
HumanMessage(content="What's my name?"),
]
)
AIMessage(content='Your name is Bob! How can I help you today, Bob?', additional_kwargs={'refusal': None}, response_metadata={'token_usage': {'completion_tokens': 14, 'prompt_tokens': 33, 'total_tokens': 47, 'completion_tokens_details': {'accepted_prediction_tokens': 0, 'audio_tokens': 0, 'reasoning_tokens': 0, 'rejected_prediction_tokens': 0}, 'prompt_tokens_details': {'audio_tokens': 0, 'cached_tokens': 0}}, 'model_name': 'gpt-4o-mini-2024-07-18', 'system_fingerprint': 'fp_0705bf87c0', 'finish_reason': 'stop', 'logprobs': None}, id='run-34bcccb3-446e-42f2-b1de-52c09936c02c-0', usage_metadata={'input_tokens': 33, 'output_tokens': 14, 'total_tokens': 47, 'input_token_details': {'audio': 0, 'cache_read': 0}, 'output_token_details': {'audio': 0, 'reasoning': 0}})
现在我们可以看到我们得到了很好的回应!
这是支撑聊天机器人进行对话交互能力的基本思想。 那么我们如何最好地实现这一点呢?
消息持久性
LangGraph 实现了一个内置的持久层,使其成为支持多个对话轮次的聊天应用程序的理想选择。
将我们的聊天模型包装在一个最小的 LangGraph 应用程序中,使我们能够自动持久化消息历史记录,从而简化多轮次应用程序的开发。
LangGraph 带有一个简单的内存检查点程序,我们在下面使用。有关更多详细信息,包括如何使用不同的持久化后端(例如 SQLite 或 Postgres),请参阅其文档。
from langgraph.checkpoint.memory import MemorySaver
from langgraph.graph import START, MessagesState, StateGraph
# Define a new graph
workflow = StateGraph(state_schema=MessagesState)
# Define the function that calls the model
def call_model(state: MessagesState):
response = model.invoke(state["messages"])
return {"messages": response}
# Define the (single) node in the graph
workflow.add_edge(START, "model")
workflow.add_node("model", call_model)
# Add memory
memory = MemorySaver()
app = workflow.compile(checkpointer=memory)
我们现在需要创建一个config我们每次都传递到 runnable 中。此配置包含的信息不直接属于 input,但仍然有用。在本例中,我们希望包含一个thread_id.这应该看起来像:
config = {"configurable": {"thread_id": "abc123"}}
这使我们能够使用单个应用程序支持多个对话线程,这是应用程序具有多个用户时的常见要求。
然后我们可以调用应用程序:
query = "Hi! I'm Bob."
input_messages = [HumanMessage(query)]
output = app.invoke({"messages": input_messages}, config)
output["messages"][-1].pretty_print() # output contains all messages in state
==================================[1m Ai Message [0m==================================
Hi Bob! How can I assist you today?
query = "What's my name?"
input_messages = [HumanMessage(query)]
output = app.invoke({"messages": input_messages}, config)
output["messages"][-1].pretty_print()
==================================[1m Ai Message [0m==================================
Your name is Bob! How can I help you today, Bob?
伟大!我们的聊天机器人现在记住了关于我们的事情。如果我们更改配置以引用不同的thread_id,我们可以看到它开始了全新的对话。
config = {"configurable": {"thread_id": "abc234"}}
input_messages = [HumanMessage(query)]
output = app.invoke({"messages": input_messages}, config)
output["messages"][-1].pretty_print()
==================================[1m Ai Message [0m==================================
I'm sorry, but I don't have access to personal information about you unless you've shared it in this conversation. How can I assist you today?
但是,我们总是可以返回到原始对话(因为我们将其持久化在数据库中)
config = {"configurable": {"thread_id": "abc123"}}
input_messages = [HumanMessage(query)]
output = app.invoke({"messages": input_messages}, config)
output["messages"][-1].pretty_print()
==================================[1m Ai Message [0m==================================
Your name is Bob. What would you like to discuss today?
这就是我们支持聊天机器人与许多用户进行对话的方式!
要获得异步支持,请更新call_modelnode 设置为异步函数,并使用.ainvoke调用应用程序时:
# Async function for node:
async def call_model(state: MessagesState):
response = await model.ainvoke(state["messages"])
return {"messages": response}
# Define graph as before:
workflow = StateGraph(state_schema=MessagesState)
workflow.add_edge(START, "model")
workflow.add_node("model", call_model)
app = workflow.compile(checkpointer=MemorySaver())
# Async invocation:
output = await app.ainvoke({"messages": input_messages}, config)
output["messages"][-1].pretty_print()
现在,我们所做的只是在模型周围添加一个简单的持久层。我们可以通过添加提示模板来开始使聊天机器人更加复杂和个性化。
提示模板
提示模板有助于将原始用户信息转换为 LLM 可以使用的格式。在本例中,原始用户输入只是一条消息,我们将其传递给 LLM。现在让我们让它稍微复杂一点。首先,让我们添加一条带有一些自定义指令的系统消息(但仍将消息作为输入)。接下来,除了消息之外,我们还将添加更多输入。
要添加系统消息,我们将创建一个ChatPromptTemplate.我们将利用MessagesPlaceholder以传入所有消息。
from langchain_core.prompts import ChatPromptTemplate, MessagesPlaceholder
prompt_template = ChatPromptTemplate.from_messages(
[
(
"system",
"You talk like a pirate. Answer all questions to the best of your ability.",
),
MessagesPlaceholder(variable_name="messages"),
]
)
现在,我们可以更新应用程序以合并此模板:
workflow = StateGraph(state_schema=MessagesState)
def call_model(state: MessagesState):
prompt = prompt_template.invoke(state)
response = model.invoke(prompt)
return {"messages": response}
workflow.add_edge(START, "model")
workflow.add_node("model", call_model)
memory = MemorySaver()
app = workflow.compile(checkpointer=memory)
我们以相同的方式调用应用程序:
config = {"configurable": {"thread_id": "abc345"}}
query = "Hi! I'm Jim."
input_messages = [HumanMessage(query)]
output = app.invoke({"messages": input_messages}, config)
output["messages"][-1].pretty_print()
==================================[1m Ai Message [0m==================================
Ahoy there, Jim! What brings ye to these waters today? Be ye seekin' treasure, knowledge, or perhaps a good tale from the high seas? Arrr!
query = "What is my name?"
input_messages = [HumanMessage(query)]
output = app.invoke({"messages": input_messages}, config)
output["messages"][-1].pretty_print()
==================================[1m Ai Message [0m==================================
Ye be called Jim, matey! A fine name fer a swashbuckler such as yerself! What else can I do fer ye? Arrr!
棒!现在让我们的提示稍微复杂一点。我们假设提示模板现在如下所示:
prompt_template = ChatPromptTemplate.from_messages(
[
(
"system",
"You are a helpful assistant. Answer all questions to the best of your ability in {language}.",
),
MessagesPlaceholder(variable_name="messages"),
]
)
请注意,我们添加了一个新的languageinput 添加到提示符中。我们的应用程序现在有两个参数 -- 输入messages和language.我们应该更新应用程序的状态以反映这一点:
from typing import Sequence
from langchain_core.messages import BaseMessage
from langgraph.graph.message import add_messages
from typing_extensions import Annotated, TypedDict
class State(TypedDict):
messages: Annotated[Sequence[BaseMessage], add_messages]
language: str
workflow = StateGraph(state_schema=State)
def call_model(state: State):
prompt = prompt_template.invoke(state)
response = model.invoke(prompt)
return {"messages": [response]}
workflow.add_edge(START, "model")
workflow.add_node("model", call_model)
memory = MemorySaver()
app = workflow.compile(checkpointer=memory)
config = {"configurable": {"thread_id": "abc456"}}
query = "Hi! I'm Bob."
language = "Spanish"
input_messages = [HumanMessage(query)]
output = app.invoke(
{"messages": input_messages, "language": language},
config,
)
output["messages"][-1].pretty_print()
==================================[1m Ai Message [0m==================================
¡Hola, Bob! ¿Cómo puedo ayudarte hoy?
请注意,整个 state 都是持久化的,因此我们可以省略language如果不需要更改:
query = "What is my name?"
input_messages = [HumanMessage(query)]
output = app.invoke(
{"messages": input_messages},
config,
)
output["messages"][-1].pretty_print()
==================================[1m Ai Message [0m==================================
Tu nombre es Bob. ¿Hay algo más en lo que pueda ayudarte?
为了帮助您了解内部发生的情况,请查看此 LangSmith 跟踪。
管理对话历史记录
构建聊天机器人时要了解的一个重要概念是如何管理对话历史记录。如果不进行管理,消息列表将变得不受限制,并可能使 LLM 的上下文窗口溢出。因此,添加一个限制您传入的消息大小的步骤非常重要。
重要的是,您需要在提示模板之前执行此作,但在从 Message History 加载以前的消息之后执行此作。
我们可以通过在提示符前添加一个简单的步骤来修改messages键,然后将该新链包装在 Message History 类中。
LangChain 附带了一些内置的 helpers,用于管理消息列表。在本例中,我们将使用 trim_messages 帮助程序来减少发送到模型的消息数量。修剪器允许我们指定要保留的令牌数量,以及其他参数,例如我们是否要始终保留系统消息以及是否允许部分消息:
from langchain_core.messages import SystemMessage, trim_messages
trimmer = trim_messages(
max_tokens=65,
strategy="last",
token_counter=model,
include_system=True,
allow_partial=False,
start_on="human",
)
messages = [
SystemMessage(content="you're a good assistant"),
HumanMessage(content="hi! I'm bob"),
AIMessage(content="hi!"),
HumanMessage(content="I like vanilla ice cream"),
AIMessage(content="nice"),
HumanMessage(content="whats 2 + 2"),
AIMessage(content="4"),
HumanMessage(content="thanks"),
AIMessage(content="no problem!"),
HumanMessage(content="having fun?"),
AIMessage(content="yes!"),
]
trimmer.invoke(messages)
[SystemMessage(content="you're a good assistant", additional_kwargs={}, response_metadata={}),
HumanMessage(content='whats 2 + 2', additional_kwargs={}, response_metadata={}),
AIMessage(content='4', additional_kwargs={}, response_metadata={}),
HumanMessage(content='thanks', additional_kwargs={}, response_metadata={}),
AIMessage(content='no problem!', additional_kwargs={}, response_metadata={}),
HumanMessage(content='having fun?', additional_kwargs={}, response_metadata={}),
AIMessage(content='yes!', additional_kwargs={}, response_metadata={})]
要在我们的链中使用它,我们只需要在将messagesinput 添加到我们的提示符中。
workflow = StateGraph(state_schema=State)
def call_model(state: State):
trimmed_messages = trimmer.invoke(state["messages"])
prompt = prompt_template.invoke(
{"messages": trimmed_messages, "language": state["language"]}
)
response = model.invoke(prompt)
return {"messages": [response]}
workflow.add_edge(START, "model")
workflow.add_node("model", call_model)
memory = MemorySaver()
app = workflow.compile(checkpointer=memory)
现在,如果我们尝试向模型询问我们的名字,它不会知道它,因为我们修剪了聊天记录的那部分:
config = {"configurable": {"thread_id": "abc567"}}
query = "What is my name?"
language = "English"
input_messages = messages + [HumanMessage(query)]
output = app.invoke(
{"messages": input_messages, "language": language},
config,
)
output["messages"][-1].pretty_print()
==================================[1m Ai Message [0m==================================
I don't know your name. You haven't told me yet!
但是,如果我们询问最后几封邮件中的信息,它会记住:
config = {"configurable": {"thread_id": "abc678"}}
query = "What math problem did I ask?"
language = "English"
input_messages = messages + [HumanMessage(query)]
output = app.invoke(
{"messages": input_messages, "language": language},
config,
)
output["messages"][-1].pretty_print()
==================================[1m Ai Message [0m==================================
You asked what 2 + 2 equals.
如果您查看 LangSmith,则可以在 LangSmith 跟踪中准确了解后台发生的情况。
流
现在我们有一个正常运行的聊天机器人。但是,聊天机器人应用程序的一个非常重要的 UX 考虑因素是流式传输。LLM 有时可能需要一段时间才能响应,因此,为了改善用户体验,大多数应用程序所做的一件事是在生成每个令牌时流回每个令牌。这样,用户就可以看到进度。
这实际上非常简单!
默认情况下,.stream在我们的 LangGraph 应用程序 streams 应用程序步骤中 - 在本例中,模型响应的单个步骤。设置stream_mode="messages"允许我们改为流式传输输出令牌:
config = {"configurable": {"thread_id": "abc789"}}
query = "Hi I'm Todd, please tell me a joke."
language = "English"
input_messages = [HumanMessage(query)]
for chunk, metadata in app.stream(
{"messages": input_messages, "language": language},
config,
stream_mode="messages",
):
if isinstance(chunk, AIMessage): # Filter to just model responses
print(chunk.content, end="|")
|Hi| Todd|!| Here|’s| a| joke| for| you|:
|Why| don|’t| skeleton|s| fight| each| other|?
|Because| they| don|’t| have| the| guts|!||
后续步骤
现在你已经了解了如何在 LangChain 中创建聊天机器人的基础知识,你可能感兴趣的一些更高级的教程是:
如果您想更深入地了解具体细节,值得一试的是:
- 流式处理:流式处理对于聊天应用程序至关重要
- 如何添加消息历史记录:更深入地了解与消息历史记录相关的所有内容
- 如何管理大型消息历史记录:管理大型聊天记录的更多技巧
- LangGraph 主要文档:有关使用 LangGraph 构建的更多详细信息