我想知道 Scrapy 是如何过滤那些爬取的 url 的?它是否存储了所有被抓取的 url crawled_urls_list
,当它获得一个新的 url 时,它会查找列表以检查该 url 是否存在?
CrawlSpider (/path/to/scrapy/contrib/spiders/crawl.py)的这个过滤部分的代码在哪里?
非常感谢!
我想知道 Scrapy 是如何过滤那些爬取的 url 的?它是否存储了所有被抓取的 url crawled_urls_list
,当它获得一个新的 url 时,它会查找列表以检查该 url 是否存在?
CrawlSpider (/path/to/scrapy/contrib/spiders/crawl.py)的这个过滤部分的代码在哪里?
非常感谢!