Skip to main content

评估操作指南

这些指南回答了 “How do I...？” 格式问题。它们以目标为导向且具体，旨在帮助您完成特定任务。有关概念说明，请参阅概念指南。有关端到端演练，请参阅教程。有关每个类和函数的全面描述，请参阅 API 参考。

主要特点

使用 SDK 或 UI 创建数据集
使用 SDK 或 UI 运行离线评估
使用 LLM 作为裁判和自定义代码评估器运行在线评估
在 UI 中分析评估结果
记录来自您的应用的用户反馈
使用注释队列记录专家反馈

离线评估

在部署应用程序之前对其进行评估和改进。

运行评估

定义赋值器

配置评估数据

配置评估作业

向数据集添加默认赋值器

设置自动针对数据集的所有实验运行的评估程序。

测试集成

使用您最喜欢的测试工具运行 evals。

在线评估

评估和监控系统对生产数据的实时性能。

分析实验结果

使用UI和API来理解您的实验结果。

数据集管理

在 LangSmith 中管理您的评估使用的数据集。

注释队列和人工反馈

收集主题专家和用户的反馈以改进您的应用程序。

这个页面有帮助吗？

您可以在 GitHub 上留下详细的反馈。