我正在使用 Crawler4j 爬虫爬取一些域。现在我想提高爬虫的效率,我希望我的爬虫在给定的时间段内使用我的全部带宽并爬取尽可能多的 url。为此我正在采取以下措施设置: -
- 我增加了编号。爬虫线程数为 10(使用此函数 ContentCrawler('classfilename',10);)
- 我已将礼貌延迟减少到 50 毫秒(使用 Crawlconfig.setpolitenessdelay(50);)
- 我将爬行深度设为 2(使用 Crawlconfig.setMaxDepthOfCrawling(2))
现在我想知道的是:-
1) 这种设置是否有任何副作用。
2)除此之外我还有什么需要做的,这样我才能提高我的爬虫速度。
3) 有人能告诉我每个设置的最大限制吗(例如:- crawler4j 一次支持的最大线程数等)。因为我已经浏览了 Crawler4j 的代码,但我在任何地方都没有找到任何限制。
4)如何在不检查它的robots.txt文件的情况下抓取一个域。因为我知道crawler4j在抓取之前首先检查一个域的robots.txt文件。我不想要那个!
5)page fetcher是如何工作的(请简单解释一下)
任何帮助表示赞赏,如果问题很愚蠢,请放轻松。