大家好!假设我有一些使用此脚本获得的页面:
page = urllib2.urlopen(url).read()
在抓取网页时,如何有效(快速)检查该内容是否已被抓取?我的算法是这样的:
seenContents = set()
then check if crawled content is in set or not
但我不知道在那个集合上存储什么,哈希值等等?你能推荐一些东西吗?
大家好!假设我有一些使用此脚本获得的页面:
page = urllib2.urlopen(url).read()
在抓取网页时,如何有效(快速)检查该内容是否已被抓取?我的算法是这样的:
seenContents = set()
then check if crawled content is in set or not
但我不知道在那个集合上存储什么,哈希值等等?你能推荐一些东西吗?