Skip to main content

如何使用预构建评估器

LangSmith 与开源 openevals 包集成, 提供一套预构建、开箱即用的评估器,您可以直接将其作为评估的起点使用。

注意

本指南将演示如何设置和运行一种评估器(LLM-as-a-judge),但还有其他多种评估器可供选择。 有关完整列表和使用示例,请参阅 openevalsagentevals 仓库。

设置

您将需要安装openevals包才能使用预构建的LLM-as-a-judge评估器。

pip install -U openevals

你还需要将你的 OpenAI API 密钥设置为环境变量,不过你也可以选择其他提供商:

export OPENAI_API_KEY="your_openai_api_key"

我们还将使用 LangSmith 的 pytest 集成用于 Python,以及 Vitest/Jest 用于 TypeScript 来运行我们的评估。 openevals 也与 evaluate 方法无缝集成。 请查看 相关指南 以获取设置说明。

运行评估器

一般流程很简单:从 openevals 导入评估器或工厂函数,然后在您的测试文件中运行它,提供输入、输出和参考输出。LangSmith 会自动将评估器的结果记录为反馈。

请注意,并非所有评估器都需要每个参数(例如,精确匹配评估器只需要输出和参考输出)。 此外,如果您的LLM-as-a-judge提示需要额外的变量,将它们作为kwargs传入会将它们格式化到提示中。

按如下方式设置您的测试文件:

import pytest

from langsmith import testing as t

from openevals.llm import create_llm_as_judge
from openevals.prompts import CORRECTNESS_PROMPT

correctness_evaluator = create_llm_as_judge(
prompt=CORRECTNESS_PROMPT,
feedback_key="correctness",
model="openai:o3-mini",
)

# Mock standin for your application
def my_llm_app(inputs: dict) -> str:
return "Doodads have increased in price by 10% in the past year."

@pytest.mark.langsmith
def test_correctness():
inputs = "How much has the price of doodads changed in the past year?"
reference_outputs = "The price of doodads has decreased by 50% in the past year."
outputs = my_llm_app(inputs)
t.log_inputs({"question": inputs})
t.log_outputs({"answer": outputs})
t.log_reference_outputs({"answer": reference_outputs})

correctness_evaluator(
inputs=inputs,
outputs=outputs,
reference_outputs=reference_outputs
)

The feedback_key/feedbackKey 参数将用作您实验中反馈的名称。

在终端中运行评估将产生如下结果:

Prebuilt evaluator terminal result

如果您已经在 LangSmith 中创建了数据集,也可以直接将预构建的评估器传递给 evaluate 方法。 如果使用 Python,这需要 langsmith>=0.3.11

from langsmith import Client
from openevals.llm import create_llm_as_judge
from openevals.prompts import CONCISENESS_PROMPT

client = Client()

conciseness_evaluator = create_llm_as_judge(
prompt=CONCISENESS_PROMPT,
feedback_key="conciseness",
model="openai:o3-mini",
)

experiment_results = client.evaluate(
# This is a dummy target function, replace with your actual LLM-based system
lambda inputs: "What color is the sky?",
data="Sample dataset",
evaluators=[
conciseness_evaluator
]
)

有关可用评估器的完整列表,请参阅 openevalsagentevals 仓库。


此页面有帮助吗?


您可以留下详细的反馈 在 GitHub 上