r - 有没有办法在不下载所有 HTML 的情况下运行 Rcrawler？

Question

我在一个非常大的网站上运行 Rcrawler，因此需要很长时间（默认页面深度为 3 天以上）。有没有办法不下载所有 HTML 以加快处理速度？

我只需要存储在 INDEX 中的 URL。或者任何人都可以推荐另一种让 Rcrawler 运行得更快的方法吗？

我尝试以较小的页面深度（5）运行它，但它仍然需要永远。

score 0 · Accepted Answer

我正在处理同样的问题。根据来源，在某些情况下，我什至在深度 1 处运行。

最好的，贾努斯

1 回答 1