TruLens
本页介绍如何使用 TruLens 评估和跟踪基于 langchain 构建的 LLM 应用程序。
安装和设置
安装trulens-evalpython 软件包。
pip install trulens-eval
快速入门
请参阅 TruLens 文档中的集成详细信息。
跟踪
创建 LLM 链后,您可以使用 TruLens 进行评估和跟踪。 TruLens 具有许多开箱即用的反馈功能、 也是 LLM 评估的可扩展框架。
创建反馈函数:
from trulens_eval.feedback import Feedback, Huggingface,
# Initialize HuggingFace-based feedback function collection class:
hugs = Huggingface()
openai = OpenAI()
# Define a language match feedback function using HuggingFace.
lang_match = Feedback(hugs.language_match).on_input_output()
# By default this will check language match on the main app input and main app
# output.
# Question/answer relevance between overall question and answer.
qa_relevance = Feedback(openai.relevance).on_input_output()
# By default this will evaluate feedback on main app input and main app output.
# Toxicity of input
toxicity = Feedback(openai.toxicity).on_input()
Chains
在设置了用于评估 LLM 的 Feedback Function(s) 后,您可以使用 TruChain 获取 LLM 应用程序的详细跟踪、日志记录和评估。
注意:请参阅chaincreation is in
TruLens 文档。
from trulens_eval import TruChain
# wrap your chain with TruChain
truchain = TruChain(
chain,
app_id='Chain1_ChatApplication',
feedbacks=[lang_match, qa_relevance, toxicity]
)
# Note: any `feedbacks` specified here will be evaluated and logged whenever the chain is used.
truchain("que hora es?")
评估
现在,您可以探索基于 LLM 的应用程序!
这样做将帮助您一目了然地了解 LLM 应用程序的性能。当您迭代 LLM 应用程序的新版本时,您可以比较它们在您设置的所有不同质量指标下的性能。您还可以查看记录级别的评估,并浏览每条记录的链元数据。
from trulens_eval import Tru
tru = Tru()
tru.run_dashboard() # open a Streamlit app to explore
有关 TruLens 的更多信息,请访问 trulens.org