Find centralized, trusted content and collaborate around the technologies you use most.
Teams
Q&A for work
Connect and share knowledge within a single location that is structured and easy to search.
我正在使用 Scrapy 抓取网站并将数据提取到 json 文件中,但我发现对于某些网站,抓取工具需要很长时间才能抓取完整的网站。
我的问题是:我怎样才能最大限度地减少爬行所需的时间?
尝试调整CONCURRENT_ITEMS、CONCURRENT_REQUESTS和CONCURRENT_REQUESTS_PER_DOMAIN其他设置。
CONCURRENT_ITEMS
CONCURRENT_REQUESTS
CONCURRENT_REQUESTS_PER_DOMAIN
有关设置的完整列表,请参阅http://doc.scrapy.org/en/latest/topics/settings.html