python - Scrapy 节流和请求调度仅微服务

Question

我目前正在使用 python 请求下载大约 20,000 页的 json。由于我正在抓取的服务器的速率限制，并且可能缺少异步调用/调度，我遇到了一些瓶颈。我认为 scrapy 会是一个很好的解决方案，因为我听说它具有解决与抓取相关的这些问题的功能。问题是，这些是我唯一需要的部分，我不需要蜘蛛/解析/orm/等。查看文档，不清楚我将如何仅分离这些组件。我需要一个微服务来处理scrapy 所做的这些部分。Scrapy 的 Django 的烧瓶。我看到 grequests 可能有助于异步，但如果我走那条路，我仍然需要速率限制和重试失败请求的方法。有人可以指出我正确的方向吗？

score -1 · Accepted Answer

如果您需要一些可以帮助您限制速率的东西，我建议您使用代理轮换服务，如果您已经准备好爬虫，则不需要 Scrapy。

我会推荐Crawlera或proxymesh。

python - Scrapy 节流和请求调度仅微服务

1 回答 1

Related

Reference