0

我在一个非常大的网站上运行 Rcrawler,因此需要很长时间(默认页面深度为 3 天以上)。有没有办法不下载所有 HTML 以加快处理速度?

我只需要存储在 INDEX 中的 URL。或者任何人都可以推荐另一种让 Rcrawler 运行得更快的方法吗?

我尝试以较小的页面深度(5)运行它,但它仍然需要永远。

4

1 回答 1

0

我正在处理同样的问题。根据来源,在某些情况下,我什至在深度 1 处运行。

最好的,贾努斯

于 2019-06-03T10:03:12.803 回答