我正在使用 RCrawler 抓取约 300 个网站。网站的规模非常多样化:有些很小(几十页左右),有些很大(每个域 1000 页)。抓取后者非常耗时,并且 - 出于我的研究目的 - 当我已经有几百个页面时,更多页面的附加值会降低。
那么:如果收集到 x 个页面,有没有办法停止爬网?
我知道我可以使用 MaxDepth 限制爬行,但即使在 MaxDepth=2 时,这仍然是一个问题。MaxDepth=1 不适合我的研究。此外,我更愿意将 MaxDepth 保持在较高水平,这样较小的网站就会被完全抓取。
非常感谢!