1

我正在构建一台 QA 机器,我有自己的数据来完成这项任务。我有一个问题,即 1 个问题可以有 2 个或更多答案。例如:

问题: “A必须做什么?”

正确答案

  • “必须打扫地板”
  • “一个不得不挂衣服”

在我的 QA 模型中,我可以获得 k 个最佳答案。但是,在某些情况下,不仅 k 不等于正确答案的数量,而且 k 中的一些答案也不正确。

大多数公共数据集,如 SQuAD、triviaQA 都有一个问题和一个答案。就我而言,我的问题可以有多个答案。那么,我应该使用什么样的评估指标?我可以使用 F1 分数吗?

4

1 回答 1

1

评估指标应始终取决于您正在开发的系统将如何使用。F1 分数当然是一个合理的统计数据,它可以告诉您很多关于正确和错误答案的分布情况。

如果您要从系统中提供单个最佳答案,您还应该测量 1-best 准确度。如果要呈现多个答案,则应测量 n 处的精度即正确答案在n 个最佳答案中的比例,实际上是召回率,但信息检索中的人们称之为精度)。

如果您不确定要提供多少个合适的答案,您可能需要绘制ROC 曲线并计算 AUC 分数。

于 2020-09-29T06:59:24.093 回答