评估操作指南
这些指南回答了 “How do I...?” 格式问题。 它们以目标为导向且具体,旨在帮助您完成特定任务。 有关概念说明,请参阅概念指南。 有关端到端演练,请参阅教程。 有关每个类和函数的全面描述,请参阅 API 参考。
主要特点
- 使用 SDK 或 UI 创建数据集
- 使用 SDK 或 UI 运行离线评估
- 使用 LLM 作为裁判和自定义代码评估器运行在线评估
- 在 UI 中分析评估结果
- 记录来自您的应用的用户反馈
- 使用注释队列记录专家反馈
离线评估
在部署应用程序之前对其进行评估和改进。
运行评估
- 定义要计算的目标函数
- 使用 SDK 运行评估
- 异步运行评估
- 运行比较两个实验的评估
- 评估
langchain可运行 - 评估
langgraph图形 - 评估现有实验(仅限 Python)
- 从 UI 运行评估
- 通过 REST API 运行评估
- 使用多模态内容运行评估
定义赋值器
配置评估数据
配置评估作业
向数据集添加默认赋值器
设置自动针对数据集的所有实验运行的评估程序。
测试集成
使用您最喜欢的测试工具运行 evals。
在线评估
评估和监控系统对生产数据的实时性能。
分析实验结果
使用UI和API来理解您的实验结果。
- 分析单个实验
- 将实验与对比视图进行比较
- 过滤器实验
- 查看成对实验
- 在 SDK 中获取实验结果
- 使用 REST API 上传在 LangSmith 外部运行的实验
- 以 CSV 格式下载实验结果
- 审核和更正评估员分数
- 重命名实验
数据集管理
在 LangSmith 中管理您的评估使用的数据集。
- 从 UI 创建数据集
- 从 UI 导出数据集
- 从 UI 创建数据集拆分
- 从 UI 筛选示例
- 使用 SDK 创建数据集
- 使用 SDK 获取数据集
- 使用 SDK 更新数据集
- 对数据集进行版本控制
- 数据集共享
- 将筛选的跟踪从实验导出到数据集
注释队列和人工反馈
收集主题专家和用户的反馈以改进您的应用程序。