我正在使用portia抓取网站的文章,现在我想知道在运行portia蜘蛛时如何每天获取最少的文章?
我有一个想法,使用文章中的日期时间,并与现在的日期时间进行比较。但是有更好的吗?
取决于网站的结构,但如果每篇文章都在不同的 URL 中,您可以使用deltafetch蜘蛛中间件过滤在以前的爬网中已经访问过的 URL。
要启用安装 scrapylib 并将其添加到您的 settings.py 中:
SPIDER_MIDDLEWARES = {
'scrapylib.deltafetch.DeltaFetch': 100,
}
DELTAFETCH_ENABLED = True