0

我正在尝试使用crawler4j来实现爬虫。它运行良好,直到:

  1. 我只运行它的 1 个副本。
  2. 我连续运行它而无需重新启动。

如果我重新启动爬虫,收集的 url 不是唯一的。这是因为,爬虫锁定了根文件夹(存储中间爬虫数据并作为参数传递)。当爬虫重新启动时,它会删除根数据文件夹的内容。

是否有可能: ?

  1. 防止根数据文件夹锁定。(所以,我可以一次运行多个爬虫副本。)
  2. 重启后根数据文件夹的内容不会被删除。(这样我就可以在停止后恢复爬虫。)
4

1 回答 1

0

您可以尝试使用以下方法更改爬虫的配置:

crawlConfig.setResumableCrawling(true); 

controller.java课堂上。

您可以点击此链接并查看 Resumable crawling。

于 2014-05-14T10:26:38.050 回答