scrapy - 爬虫、cookies、会话、速率限制

Question

我正在尝试使用 scrapinghub 抓取严重限制请求率的网站。

如果我按原样运行蜘蛛，我很快就会得到 429。

如果我按照标准说明启用 crawlera ，则蜘蛛不再工作。

如果我headers = {"X-Crawlera-Cookies": "disable"}再次设置蜘蛛工作，但我得到 429s - 所以我假设限制器（也）在 cookie 上工作。

那么这里有什么方法呢？

score 0 · Accepted Answer

你可以试试 RandomUserAgent，如果你不想写自己的实现，你可以试试用这个：

1 回答 1