web-crawler - 爬取网站返回不良数据

Question

我正在使用快速矿工从特定数据中抓取网站。问题是如果我尝试经常抓取网站，它会提供错误的数据。

如果我从其他 IP 地址看到相同的数据，它会显示与我在不同 IP 地址上抓取的数据不同的数据。

有什么办法可以克服这个问题吗？

score 0 · Accepted Answer

今天的许多网站，尤其是值得挖掘的网站（即：链接）使用复杂的方法来检测和阻止除少数与他们达成协议的大型搜索引擎之外的所有网站的抓取。

尝试改变您发送的浏览器代码以及在一组机器而不是单台机器之间分配抓取。在 AWS 上运行一堆微型实例比一个大型实例更可取。还要确保在请求之间设置延迟，因为这既考虑周到，又有助于伪装你的爬虫。

1 回答 1