我在专注的网络爬虫(又名主题网络爬虫)中看到,评估指标 - 收获率 - 被定义为:在抓取 ' t ' 页面后,收获率 = number_of_relevant_pages/pages_crawled(t)。
例如,在爬取 100 个页面后,我得到 80 个真阳性,那么此时爬虫的收获率为 0.9。但是爬虫可能忽略了一些与爬取域完全相关但未计入评估比率的爬取页面。这是什么?我们能否改进评估指标以包括完全相关的缺失页面?这个考虑重要吗?
我在专注的网络爬虫(又名主题网络爬虫)中看到,评估指标 - 收获率 - 被定义为:在抓取 ' t ' 页面后,收获率 = number_of_relevant_pages/pages_crawled(t)。
例如,在爬取 100 个页面后,我得到 80 个真阳性,那么此时爬虫的收获率为 0.9。但是爬虫可能忽略了一些与爬取域完全相关但未计入评估比率的爬取页面。这是什么?我们能否改进评估指标以包括完全相关的缺失页面?这个考虑重要吗?
聚焦爬行最基本的评估是精确度和召回率,可以聚合成 F-measure。
http://en.wikipedia.org/wiki/Precision_and_recall
http://en.wikipedia.org/wiki/F1_score
如果您对页面与特定关键字的相关性更感兴趣,则希望使用 tf/idf(词频-逆文档频率)