当scrapy 关闭时,它会忘记所有的url。我想在开始时给scrapy一组已被抓取的网址。如何给 crawlspider 添加一条规则,让它知道哪些 url 被访问了?
当前功能:
SgmlLinkExtractor(allow=(), deny=(), allow_domains=(), deny_domains=(), restrict_xpaths(), tags=('a', 'area'), attrs=('href'), canonicalize=True, unique=True, process_value=None)
只需使用 parse 告诉蜘蛛要抓取哪个 url。我怎么能告诉scrapy哪些网址不应该访问?