我对具有以下内容的面向公众的网站(没有登录/身份验证)感兴趣:
- 大量使用内部 301 和 302 重定向
- 反爬虫措施(但不是通过 robots.txt 禁止爬虫)
- 非语义或无效标记
- 通过 AJAX 以 onclicks 或无限滚动的形式加载的内容
- url中使用了很多参数
- 典型问题
- 复杂的内部链接结构
- 以及其他通常使抓取网站令人头疼的事情!
我已经构建了一个爬虫/蜘蛛,可以在网站上执行一系列分析,并且我正在寻找可以让它陷入困境的网站。
我对具有以下内容的面向公众的网站(没有登录/身份验证)感兴趣:
我已经构建了一个爬虫/蜘蛛,可以在网站上执行一系列分析,并且我正在寻找可以让它陷入困境的网站。
这里有一些:
去年我遇到了一个网站,它在发出请求时需要http 请求标头和一些 cookie,但我不记得那个网站了....