概述
什么是评估?
评估是检验 AI 工作流程可靠性的关键技术。它能够决定概念验证的可靠性,最终能否获得可靠的生产流程。无论是在构建阶段,还是部署到生产环境之后,评估都至关重要。
评估的基础是通过您的工作流程运行测试数据集。该数据集包含多个测试用例。每个测试用例都包含工作流程的示例输入,并且通常还包含预期的输出。
评估可以让你:
- 通过一系列输入测试你的工作流程,以便了解它在边缘情况下的表现
- 自信地做出改变,而不会无意中使其他地方的情况变得更糟
- 比较不同模型或提示的性能
以下视频解释了什么是评估、评估为何有用以及评估如何运作:
为什么需要评估?
AI 模型与代码有着根本的不同。代码是确定性的,你可以对其进行推理。这对于 LLM 来说很难做到,因为它们是黑匣子。因此,你必须通过在 LLM 中运行数据并观察输出
来衡量其输出。只有在对多个输入进行运行之后,才能确信模型能够可靠地运行,这些输入准确反映了生产中必须处理的所有边缘情况。
两种评估类型
轻度评估(部署前)
构建一个干净、全面的数据集并非易事。在初始构建阶段,通常只需生成少量示例即可。这些示例足以将工作流程迭代到可发布状态(或概念验证)。您可以直观地比较结果,以了解工作流程的质量,而无需设置正式的指标。
基于指标的评估(部署后)
部署工作流后,您可以更轻松地从生产执行中构建更大、更具代表性的数据集。发现错误时,可以将导致错误的输入添加到数据集中。修复错误时,务必再次在工作流上运行整个数据集,以进行
回归测试,以检查修复是否无意中导致其他问题恶化。由于测试用例数量过多,无法逐一检查,因此评估会使用指标(代表特定特征的数值)来衡量输出的质量。这还能让您跟踪每次运行之间的质量变化。
评估类型比较
| 轻度评估(部署前) | 基于指标的评估(部署后) | |
|---|---|---|
| 每次迭代都会提高性能 | 大的 | 小的 |
| 数据集大小 | 小的 | 大的 |
| 数据集来源 | 手工生成人工智能生成其他 | 生产执行AI 生成其他 |
| 实际产出 | 必需的 | 必需的 |
| 预期成果 | 选修的 | 必需(通常) |
| 评估指标 | 选修的 | 必需的 |