-2

我正在开发的 java 应用程序存在一些问题,我正在使用 HtmlCleaner 2.2 库(用于 web-harvest proyect 的库)并且获取页面源代码没有问题。

当我想递归浏览该网站并获得一个类别和产品树作为子级时,我的问题就开始了。我猜脚本每次访问一个页面,它都算作一个用户进入该站点,所以当它访问 15 或 20 个类别或产品页面时,网站防火墙会阻止我的 ip 大约一个小时。

有了这个问题,我想到了 2 个解决方案,第一:使用代理,我不会被禁止,我可以使用线程更快地下载,第二:只打开一个连接。我想使用代理是个坏主意,所以我想用一个简单的代码问,递归访问网站的 300000 个产品而不被禁止的最佳方法是什么?最快最简单

将源放在一个字符串中就足以算作已访问。我不想讨论最好的方法,只需要一个合理的方法。

声明:这是一项学校任务,我不会从中获利,我正在努力减少对网站的危害

4

1 回答 1

2

如果您的爬虫为您正在抓取的网站提供合法的商业价值,您可以联系网站所有者并要求提供数据馈送或排除他们的禁止算法(毕竟,让人们将他们的产品暴露给潜在客户通常是有益的)买家)。

更新

根据您的陈述,这是一项学校任务,请您的老师帮助寻找一个愿意为教育利益而被流量轰炸的网站,或联系网站所有者,解释您在做什么,然后询问获得许可。

于 2012-04-05T17:52:42.083 回答