-1

我目前正在使用 python 请求下载大约 20,000 页的 json。由于我正在抓取的服务器的速率限制,并且可能缺少异步调用/调度,我遇到了一些瓶颈。我认为 scrapy 会是一个很好的解决方案,因为我听说它具有解决与抓取相关的这些问题的功能。问题是,这些是我唯一需要的部分,我不需要蜘蛛/解析/orm/等。查看文档,不清楚我将如何仅分离这些组件。我需要一个微服务来处理scrapy 所做的这些部分。Scrapy 的 Django 的烧瓶。我看到 grequests 可能有助于异步,但如果我走那条路,我仍然需要速率限制和重试失败请求的方法。有人可以指出我正确的方向吗?

4

1 回答 1

-1

如果您需要一些可以帮助您限制速率的东西,我建议您使用代理轮换服务,如果您已经准备好爬虫,则不需要 Scrapy。

我会推荐Crawleraproxymesh

于 2016-06-10T02:46:11.710 回答