Skip to main content
在 GitHub 上打开

评估

评估是评估 LLM 支持的应用程序的性能和有效性的过程。 它涉及根据一组预定义的标准或基准测试模型的响应,以确保其满足所需的质量标准并实现预期目的。 此过程对于构建可靠的应用程序至关重要。

LangSmith 通过以下几种方式帮助完成此过程:

  • 它通过其跟踪和注释功能使创建和管理数据集变得更加容易
  • 它提供了一个评估框架,可帮助您定义指标并针对数据集运行应用程序
  • 它允许您跟踪一段时间内的结果,并按计划或作为 CI/Code 的一部分自动运行评估器

要了解更多信息,请查看此 LangSmith 指南