如何评估现有实验(仅限 Python)
目前仅在 Python SDK 中支持对现有实验进行评估。
如果您已经运行了实验并希望添加其他评估指标,则
可以使用evaluate() / aevaluate()方法。
只需传入实验名称/ID 而不是目标函数:
from langsmith import evaluate
def always_half(inputs: dict, outputs: dict) -> float:
return 0.5
experiment_name = "my-experiment:abc" # Replace with an actual experiment name or ID
evaluate(experiment_name, evaluators=[always_half])