基于指标的评估

适用于专业版和企业版计划

专业版和企业版计划均提供基于指标的评估功能。注册社区版和入门版计划用户也可将其用于单个工作流程。

一旦您的工作流程准备好部署，您通常希望在比构建它时更多的示例上对其进行测试。

例如，当生产执行开始出现边缘情况时，您需要将它们添加到测试数据集中，以确保它们被覆盖。

对于大型数据集（例如基于生产数据构建的数据集），仅凭目测结果很难了解性能。因此，您必须测量性能。基于指标的评估可以为每次测试运行分配一个或多个分数，以便与之前的运行进行比较。各个分数会汇总起来，以衡量其在整个数据集上的性能。

此功能允许您运行计算指标的评估，跟踪这些指标在运行之间如何变化，并深入了解这些变化的原因。

指标可以是确定性函数（例如两个字符串之间的距离），也可以使用 AI 计算。指标通常涉及检查输出与参考输出（也称为基本事实）的距离。为此，数据集必须包含该参考输出。但有些评估不需要此参考输出（例如，检查文本中的情绪或毒性）。

工作原理

需要 Google 表格

评估使用 Google 表格存储测试数据集。要使用评估，您必须配置Google 表格凭据。

按照设置说明创建数据集并将其连接到您的工作流程，将输出写回数据集。

以下步骤使用轻量级评估文档中的相同支持票证分类工作流程：

指标是用于评估工作流程输出的维度。它们通常将实际工作流程输出与参考输出进行比较。通常使用人工智能来计算指标，但有时也可以直接使用代码。在 n8n 中，指标始终是数字。

您需要在工作流生成输出后添加逻辑来计算其指标。您可以将指标使用的任何参考输出添加为数据集中的一列。这确保它们在工作流中可用，因为它们将由评估触发器输出。

例子：

计算指标可能会增加延迟和成本，因此您可能只想在运行评估时进行计算，而避免在生产执行时进行计算。您可以将指标逻辑放在“检查是否正在评估”操作之后来实现这一点。

n8n 需要知道如何提取您在步骤 2 中计算的指标。通过添加具有“设置指标”操作的评估节点并将您的指标映射到其中来实现此目的。

此支持工单分类工作流显示已添加并连接“设置输出”操作。由于此工作流中的指标仅检查实际输出是否与预期输出完全匹配，因此该工作流会在“设置指标”节点中的表达式中计算这些指标，而不是在工作流中添加任何其他节点。

切换到工作流的“评估”选项卡，然后点击“运行评估”按钮。评估将开始。评估完成后，将显示每个指标的汇总分数。

点击测试运行行即可查看每个测试用例的结果。点击单个测试用例将在新选项卡中打开生成该用例的执行结果。