scrapy - 如何获得最少使用portia的网站文章

Question

我正在使用portia抓取网站的文章，现在我想知道在运行portia蜘蛛时如何每天获取最少的文章？

我有一个想法，使用文章中的日期时间，并与现在的日期时间进行比较。但是有更好的吗？

score 2 · Accepted Answer

取决于网站的结构，但如果每篇文章都在不同的 URL 中，您可以使用deltafetch蜘蛛中间件过滤在以前的爬网中已经访问过的 URL。

要启用安装 scrapylib 并将其添加到您的 settings.py 中：

SPIDER_MIDDLEWARES = {
    'scrapylib.deltafetch.DeltaFetch': 100,
}
DELTAFETCH_ENABLED = True

1 回答 1