我开发了一个 IR 系统,它通过在数据库中应用一些搜索技术来返回用户问题的答案。我想用 f1-Score 评估它的性能,但由于结果的可能状态可能是正确或错误的答案,我对 TP、TN、FP、FN 会是什么感到有点困惑。有任何想法吗?或者更合适的测试?
我开发了一个 IR 系统,它通过在数据库中应用一些搜索技术来返回用户问题的答案。我想用 f1-Score 评估它的性能,但由于结果的可能状态可能是正确或错误的答案,我对 TP、TN、FP、FN 会是什么感到有点困惑。有任何想法吗?或者更合适的测试?