我有一个非常大的网站,其中包含很多我想抓取的 URL。有没有办法告诉 Scrapy 忽略 URL 列表?
现在我将所有 URL 存储在一个 DB 列中,我希望能够重新启动蜘蛛,但将长列表(24k 行)传递给 Scrapy,以便它知道跳过它已经看到的那些。
有没有办法做到这一点?
class MySpider(Spider):
custom_settings = {
'AUTOTHROTTLE_ENABLED': True,
'DOWNLOAD_DELAY': 1.5,
'DEPTH_LIMIT': 0,
'JOBDIR': 'jobs/scrapy_1'
}
name = None
allowed_domains = []
start_urls = []
def parse(self, response):
for link in le.extract_links(response):
yield response.follow(link.url, self.parse)