我正在尝试绘制精确召回曲线,但我有比相关文档更多的文档推荐。假设对于一个训练示例,只有 3 个相关文档:A、C、E。但它可能是从 A 到 Z 的所有文档。然后我将其向量化为:
原始 = [1, 0, 1, 0, 1, ... ]
假设我的预测对 A、C、E 具有最大的值,而对所有其他文档具有较小的值:
预测 = [0.9, 0.1, 0.8, 0.1, 0.7, ... ]
然后我计算前 k 个预测的精度和召回率,首先仅使用具有 {0.9} 的预测,然后使用 {0.9 , 0.8} 和 {0.9, 0.8, 0.7} 的预测。在那之前我的精度是1。但是在那之后,精度只能下降,因为没有更多的相关文件。继续用 {0.9, 0.8, 0.7, 0.1, ...} 计算精度/召回率是否正确?
我想我通过提问找到了这个缺陷,当我返回建议 {0.9, 0.8, 0.7} 时,不仅精度为 1,而且召回率也是如此。那我应该停下来退回文件,对吧?
编辑:解释是可以返回更多文档,但是在返回所有相关文档后,召回率保持为 1,并且精度直线下降。