1

我正在使用portia抓取网站的文章,现在我想知道在运行portia蜘蛛时如何每天获取最少的文章?

我有一个想法,使用文章中的日期时间,并与现在的日期时间进行比较。但是有更好的吗?

4

1 回答 1

2

取决于网站的结构,但如果每篇文章都在不同的 URL 中,您可以使用deltafetch蜘蛛中间件过滤在以前的爬网中已经访问过的 URL。

要启用安装 scrapylib 并将其添加到您的 settings.py 中:

SPIDER_MIDDLEWARES = {
    'scrapylib.deltafetch.DeltaFetch': 100,
}
DELTAFETCH_ENABLED = True
于 2015-09-01T09:50:33.063 回答