Skip to content

概述

什么是评估?

评估是检验 AI 工作流程可靠性的关键技术。它能够决定概念验证的可靠性,最终能否获得可靠的生产流程。无论是在构建阶段,还是部署到生产环境之后,评估都至关重要。

评估的基础是通过您的工作流程运行测试数据集。该数据集包含多个测试用例。每个测试用例都包含工作流程的示例输入,并且通常还包含预期的输出。

评估可以让你:

  • 通过一系列输入测试你的工作流程,以便了解它在边缘情况下的表现
  • 自信地做出改变,而不会无意中使其他地方的情况变得更糟
  • 比较不同模型或提示的性能

以下视频解释了什么是评估、评估为何有用以及评估如何运作:

为什么需要评估?

AI 模型与代码有着根本的不同。代码是确定性的,你可以对其进行推理。这对于 LLM 来说很难做到,因为它们是黑匣子。因此,你必须通过在 LLM 中运行数据并观察输出来衡量其输出。

只有在对多个输入进行运行之后,才能确信模型能够可靠地运行,这些输入准确反映了生产中必须处理的所有边缘情况。

两种评估类型

轻度评估(部署前)

构建一个干净、全面的数据集并非易事。在初始构建阶段,通常只需生成少量示例即可。这些示例足以将工作流程迭代到可发布状态(或概念验证)。您可以直观地比较结果,以了解工作流程的质量,而无需设置正式的指标。

基于指标的评估(部署后)

部署工作流后,您可以更轻松地从生产执行中构建更大、更具代表性的数据集。发现错误时,可以将导致错误的输入添加到数据集中。修复错误时,务必再次在工作流上运行整个数据集,以进行回归测试,以检查修复是否无意中导致其他问题恶化。

由于测试用例数量过多,无法逐一检查,因此评估会使用指标(代表特定特征的数值)来衡量输出的质量。这还能让您跟踪每次运行之间的质量变化。

评估类型比较

轻度评估(部署前) 基于指标的评估(部署后)
每次迭代都会提高性能 大的 小的
数据集大小 小的 大的
数据集来源 手工生成人工智能生成其他 生产执行AI 生成其他
实际产出 必需的 必需的
预期成果 选修的 必需(通常)
评估指标 选修的 必需的

了解更多

  • 轻量级评估:非常适合在开发过程中根据手动选择的测试用例评估您的 AI 工作流程。
  • 基于指标的评估:通过使用具有大型数据集的评分和指标进行高级评估,以保持生产中的性能和正确性。
  • 提示和常见问题:了解如何设置特定的评估用例并解决常见问题。