11

我对具有以下内容的面向公众的网站(没有登录/身份验证)感兴趣:

  • 大量使用内部 301 和 302 重定向
  • 反爬虫措施(但不是通过 robots.txt 禁止爬虫)
  • 非语义或无效标记
  • 通过 AJAX 以 onclicks 或无限滚动的形式加载的内容
  • url中使用了很多参数
  • 典型问题
  • 复杂的内部链接结构
  • 以及其他通常使抓取网站令人头疼的事情!

我已经构建了一个爬虫/蜘蛛,可以在网站上执行一系列分析,并且我正在寻找可以让它陷入困境的网站。

4

1 回答 1

3

这里有一些:

  • 通过 AJAX 以 onclicks 或无限滚动的形式加载的内容
    • 兴趣
    • 此类页面中的评论
      这是一个中文商品页面,其评论由浏览器中滚动条向下滚动或根据浏览器高度触发的 AJAX 加载。我必须使用 PhantomJS 和 xvfb 来触发此类操作。
  • 反爬虫措施(但不是通过 robots.txt 禁止爬虫)
    • amazon next page
      我已经爬过中国的amazon网站,当我想在这些页面中爬取下一页时,它可能会修改请求导致您无法获取真正的下一页
    • stackoverflow
      有访问频率的限制。前几天想把stackoverflow里所有的tag都弄出来,把蜘蛛的访问频率设置为10,结果被stackoverflow警告了……截图如下。之后我必须使用代理来抓取stackoverflow。
  • 以及其他通常使抓取网站令人头疼的事情
    • 1号店
      这是一个中国的电子商务网站,当你在浏览器中访问它时,它会显示你的位置,并会根据你的位置提供一些商品。
    • 等等。
      有很多类似上面的网站会根据您的位置提供不同的内容。当您抓取此类网站时,您获得的与您在浏览器中看到的不同。当通过蜘蛛发出请求时,它通常需要设置 cookie。

去年我遇到了一个网站,它在发出请求时需要http 请求标头一些 cookie,但我不记得那个网站了....

于 2013-12-12T06:23:06.720 回答