nlp - QA问题系统中多个正确答案的评价指标

Question

我正在构建一台 QA 机器，我有自己的数据来完成这项任务。我有一个问题，即 1 个问题可以有 2 个或更多答案。例如：

问题： “A必须做什么？”

正确答案：

在我的 QA 模型中，我可以获得 k 个最佳答案。但是，在某些情况下，不仅 k 不等于正确答案的数量，而且 k 中的一些答案也不正确。

大多数公共数据集，如 SQuAD、triviaQA 都有一个问题和一个答案。就我而言，我的问题可以有多个答案。那么，我应该使用什么样的评估指标？我可以使用 F1 分数吗？

score 1 · Accepted Answer

评估指标应始终取决于您正在开发的系统将如何使用。F1 分数当然是一个合理的统计数据，它可以告诉您很多关于正确和错误答案的分布情况。

如果您要从系统中提供单个最佳答案，您还应该测量 1-best 准确度。如果要呈现多个答案，则应测量 n 处的精度（即正确答案在n 个最佳答案中的比例，实际上是召回率，但信息检索中的人们称之为精度）。

如果您不确定要提供多少个合适的答案，您可能需要绘制ROC 曲线并计算 AUC 分数。

1 回答 1