web-scraping - 抓取和抓取特别具有挑战性的网站？

Question

我对具有以下内容的面向公众的网站（没有登录/身份验证）感兴趣：

我已经构建了一个爬虫/蜘蛛，可以在网站上执行一系列分析，并且我正在寻找可以让它陷入困境的网站。

score 3 · Accepted Answer

这里有一些：

通过 AJAX 以 onclicks 或无限滚动的形式加载的内容
- 兴趣
- 此类页面中的评论
  这是一个中文商品页面，其评论由浏览器中滚动条向下滚动或根据浏览器高度触发的 AJAX 加载。我必须使用 PhantomJS 和 xvfb 来触发此类操作。
反爬虫措施（但不是通过 robots.txt 禁止爬虫）
- amazon next page
  我已经爬过中国的amazon网站，当我想在这些页面中爬取下一页时，它可能会修改请求导致您无法获取真正的下一页
- stackoverflow
  有访问频率的限制。前几天想把stackoverflow里所有的tag都弄出来，把蜘蛛的访问频率设置为10，结果被stackoverflow警告了……截图如下。之后我必须使用代理来抓取stackoverflow。
以及其他通常使抓取网站令人头疼的事情
- 1号店
  这是一个中国的电子商务网站，当你在浏览器中访问它时，它会显示你的位置，并会根据你的位置提供一些商品。
- 等等。
  有很多类似上面的网站会根据您的位置提供不同的内容。当您抓取此类网站时，您获得的与您在浏览器中看到的不同。当通过蜘蛛发出请求时，它通常需要设置 cookie。

去年我遇到了一个网站，它在发出请求时需要http 请求标头和一些 cookie，但我不记得那个网站了....

1 回答 1