评估指南
这些指南解答“我如何……?”格式的问题。 它们以目标为导向且具体明确,旨在帮助您完成特定任务。 如需概念性解释,请参阅 概念指南。 如需端到端的分步教程,请查看 教程。 如需每个类和函数的完整描述,请参阅 API 参考。
关键特性
- 创建一个数据集 使用 SDK 或 从 UI
- 运行离线评估 使用 SDK 或 从 UI
- 使用 LLM-as-judge 和 自定义代码 评估器进行在线评估
- 分析评估结果 in the UI
- 记录用户反馈 来自您的应用
- 记录专家反馈 使用标注队列
离线评估
在部署之前评估并改进您的应用程序。
运行评估
- 定义一个用于评估的目标函数
- 使用 SDK 运行评估
- 异步运行评估
- 运行评估以比较两个实验
- 评估一个
langchain可运行对象 - 评估一个
langgraph图 - 评估现有实验(仅限 Python)
- 从 UI 运行评估
- 通过 REST API 运行评估
- 使用多模态内容运行评估
定义评估器
配置评估数据
配置评估作业
向数据集添加默认评估器
为所有实验设置评估器,这些评估器会自动针对数据集运行。
测试集成
使用您喜欢的测试工具运行评估。
在线评估
在真实生产数据上评估和监控您系统的实时性能。
分析实验结果
使用 UI 和 API 来理解您的实验结果。
- 分析单个实验
- 使用比较视图对比实验
- 过滤实验
- 查看成对实验
- 在 SDK 中获取实验结果
- 使用 REST API 上传在 LangSmith 之外运行的实验
- 将实验结果下载为 CSV
- 审核并修正评估器评分
- 重命名实验
数据集管理
管理 LangSmith 中用于评估的数据集。
- 从 UI 创建数据集
- 从 UI 导出数据集
- 从 UI 创建数据集拆分
- 从 UI 过滤示例
- 使用 SDK 创建数据集
- 使用 SDK 获取数据集
- 使用 SDK 更新数据集
- 版本化数据集
- 数据集共享
- 从实验导出过滤后的追踪数据到数据集
标注队列和人类反馈
从领域专家和用户那里收集反馈,以改进您的应用程序。