java - 使用一个连接从域中读取多个 html 源

Question

我正在开发的 java 应用程序存在一些问题，我正在使用 HtmlCleaner 2.2 库（用于 web-harvest proyect 的库）并且获取页面源代码没有问题。

当我想递归浏览该网站并获得一个类别和产品树作为子级时，我的问题就开始了。我猜脚本每次访问一个页面，它都算作一个用户进入该站点，所以当它访问 15 或 20 个类别或产品页面时，网站防火墙会阻止我的 ip 大约一个小时。

有了这个问题，我想到了 2 个解决方案，第一：使用代理，我不会被禁止，我可以使用线程更快地下载，第二：只打开一个连接。我想使用代理是个坏主意，所以我想用一个简单的代码问，递归访问网站的 300000 个产品而不被禁止的最佳方法是什么？最快最简单

将源放在一个字符串中就足以算作已访问。我不想讨论最好的方法，只需要一个合理的方法。

声明：这是一项学校任务，我不会从中获利，我正在努力减少对网站的危害

score 2 · Accepted Answer

如果您的爬虫为您正在抓取的网站提供合法的商业价值，您可以联系网站所有者并要求提供数据馈送或排除他们的禁止算法（毕竟，让人们将他们的产品暴露给潜在客户通常是有益的）买家）。

更新

根据您的陈述，这是一项学校任务，请您的老师帮助寻找一个愿意为教育利益而被流量轰炸的网站，或联系网站所有者，解释您在做什么，然后询问获得许可。

1 回答 1