0

有一个关于此的问题,但用户对了解precisionrecallF1 score感到满意(可能?) ,所以我将扩展它:

要计算准确率和召回率,您需要 TP、FN、TN 和 FP 值。开箱即用,经过爬行,你知道:

  • TP + FP(被选为相关)
  • TN + FN(其余被爬取丢弃)

困难的部分似乎是通过从爬网集中找到真正相关的页面来分离这些总和(TPFN - 未加起来)

验证文档的相关性,我可以手动完成,除了应该实际测试的爬虫的相关性功能。在我的例子中,它是被抓取页面的TF-IDF和用户给出的主题文档之间的余弦相似度。

由于我想在数百个已爬网页面上对其进行测试,您如何使用精度和召回率进行正确性评估,而无需实际手动验证每个已爬网页面?此外,还有其他方法可以评估专注的网络爬虫吗?

4

0 回答 0