基于指标的评估
适用于专业版和企业版计划
专业版和企业版计划均提供基于指标的评估功能。注册社区版和入门版计划用户也可将其用于单个工作流程。
什么是基于指标的评估?
一旦您的工作流程准备好部署,您通常希望在比
构建它时更多的示例上对其进行测试。例如,当生产执行开始出现边缘情况时,您需要将它们添加到测试数据集中,以确保它们被覆盖。
对于大型数据集(例如基于生产数据构建的数据集),仅凭目测结果很难了解性能。因此,您必须测量性能。基于指标的评估可以为每次测试运行分配一个或多个分数,以便与之前的运行进行比较。各个分数会汇总起来,以衡量其在整个数据集上的性能。
此功能允许您运行计算指标的评估,跟踪这些指标在运行之间如何变化,并深入了解这些变化的原因。
指标可以是确定性函数(例如两个字符串之间的距离),也可以使用 AI 计算。指标通常涉及检查输出与
参考输出(也称为基本事实)的距离。为此,数据集必须包含该参考输出。但有些评估不需要此参考输出(例如,检查文本中的情绪或毒性)。工作原理
- 设置灯光评估
- 计算指标
- 将指标写回评估
- 运行评估并查看结果
1. 设置光照评估
按照
设置说明创建数据集并将其连接到您的工作流程,将输出写回数据集。以下步骤使用轻量级评估文档中的相同支持票证分类工作流程:
2. 计算指标
指标是用于评估工作流程输出的维度。它们通常将实际工作流程输出与参考输出进行比较。通常使用人工智能来计算指标,但有时也可以直接使用代码。在 n8n 中,指标始终是数字。
您需要在工作流生成输出后添加逻辑来计算其指标。您可以将指标使用的任何参考输出添加为数据集中的一列。这确保它们在工作流中可用,因为它们将由评估触发器输出。
例子:
- 正确性:输出的含义是否与参考输出一致。
- 分类:输出是否与预期输出完全匹配。
- 有用性:答案是否解答了问题。
- 字符串相似度:逐个字符测量输出与参考输出的接近程度。
- 工具调用:代理是否调用了正确的工具。
- RAG 文档相关性:使用矢量数据库时,检索到的文档是否与问题相关。
- RAG 答案的扎根性:使用矢量数据库时,答案是否在检索到的文档中“扎根” 。
计算指标可能会增加延迟和成本,因此您可能只想在运行评估时进行计算,而避免在生产执行时进行计算。您可以将指标逻辑放在
“检查是否正在评估”操作之后来实现这一点。3. 将指标重新写入评估
n8n 需要知道如何提取您在步骤 2 中计算的指标。通过添加具有
“设置指标”操作的评估节点并将您的指标映射到其中来实现此目的。此支持工单分类工作流显示已添加并连接“设置输出”操作。由于此工作流中的指标仅检查实际输出是否与预期输出完全匹配,因此该工作流会在“设置指标”节点中的表达式中计算这些指标,而不是在工作流中添加任何其他节点。
4. 运行评估并查看结果
切换到工作流的
“评估”选项卡,然后点击“运行评估”按钮。评估将开始。评估完成后,将显示每个指标的汇总分数。点击测试运行行即可查看每个测试用例的结果。点击单个测试用例将在新选项卡中打开生成该用例的执行结果。


