我正在构建一台 QA 机器,我有自己的数据来完成这项任务。我有一个问题,即 1 个问题可以有 2 个或更多答案。例如:
问题: “A必须做什么?”
正确答案:
- “必须打扫地板”
- “一个不得不挂衣服”
在我的 QA 模型中,我可以获得 k 个最佳答案。但是,在某些情况下,不仅 k 不等于正确答案的数量,而且 k 中的一些答案也不正确。
大多数公共数据集,如 SQuAD、triviaQA 都有一个问题和一个答案。就我而言,我的问题可以有多个答案。那么,我应该使用什么样的评估指标?我可以使用 F1 分数吗?