我在一个非常大的网站上运行 Rcrawler,因此需要很长时间(默认页面深度为 3 天以上)。有没有办法不下载所有 HTML 以加快处理速度?
我只需要存储在 INDEX 中的 URL。或者任何人都可以推荐另一种让 Rcrawler 运行得更快的方法吗?
我尝试以较小的页面深度(5)运行它,但它仍然需要永远。
我在一个非常大的网站上运行 Rcrawler,因此需要很长时间(默认页面深度为 3 天以上)。有没有办法不下载所有 HTML 以加快处理速度?
我只需要存储在 INDEX 中的 URL。或者任何人都可以推荐另一种让 Rcrawler 运行得更快的方法吗?
我尝试以较小的页面深度(5)运行它,但它仍然需要永远。