我正在开发的 java 应用程序存在一些问题,我正在使用 HtmlCleaner 2.2 库(用于 web-harvest proyect 的库)并且获取页面源代码没有问题。
当我想递归浏览该网站并获得一个类别和产品树作为子级时,我的问题就开始了。我猜脚本每次访问一个页面,它都算作一个用户进入该站点,所以当它访问 15 或 20 个类别或产品页面时,网站防火墙会阻止我的 ip 大约一个小时。
有了这个问题,我想到了 2 个解决方案,第一:使用代理,我不会被禁止,我可以使用线程更快地下载,第二:只打开一个连接。我想使用代理是个坏主意,所以我想用一个简单的代码问,递归访问网站的 300000 个产品而不被禁止的最佳方法是什么?最快最简单
将源放在一个字符串中就足以算作已访问。我不想讨论最好的方法,只需要一个合理的方法。
声明:这是一项学校任务,我不会从中获利,我正在努力减少对网站的危害