0

我正在尝试使用 scrapinghub 抓取严重限制请求率的网站。

如果我按原样运行蜘蛛,我很快就会得到 429。

如果我按照标准说明启用 crawlera ,则蜘蛛不再工作。

如果我headers = {"X-Crawlera-Cookies": "disable"}再次设置蜘蛛工作,但我得到 429s - 所以我假设限制器(也)在 cookie 上工作。

那么这里有什么方法呢?

4

1 回答 1

0

你可以试试 RandomUserAgent,如果你不想写自己的实现,你可以试试用这个:

https://github.com/cnu/scrapy-random-useragent

于 2019-09-09T19:21:13.040 回答