Skip to main content

评估操作指南

这些指南回答了 “How do I...?” 格式问题。 它们以目标为导向且具体,旨在帮助您完成特定任务。 有关概念说明,请参阅概念指南。 有关端到端演练,请参阅教程。 有关每个类和函数的全面描述,请参阅 API 参考

主要特点

离线评估

在部署应用程序之前对其进行评估和改进。

运行评估

定义赋值器

配置评估数据

配置评估作业

向数据集添加默认赋值器

设置自动针对数据集的所有实验运行的评估程序。

测试集成

使用您最喜欢的测试工具运行 evals。

在线评估

评估和监控系统对生产数据的实时性能。

分析实验结果

使用UI和API来理解您的实验结果。

数据集管理

在 LangSmith 中管理您的评估使用的数据集。

注释队列和人工反馈

收集主题专家和用户的反馈以改进您的应用程序。


这个页面有帮助吗?


您可以在 GitHub 上留下详细的反馈。