我正在尝试使用crawler4j来实现爬虫。它运行良好,直到:
- 我只运行它的 1 个副本。
- 我连续运行它而无需重新启动。
如果我重新启动爬虫,收集的 url 不是唯一的。这是因为,爬虫锁定了根文件夹(存储中间爬虫数据并作为参数传递)。当爬虫重新启动时,它会删除根数据文件夹的内容。
是否有可能: ?
- 防止根数据文件夹锁定。(所以,我可以一次运行多个爬虫副本。)
- 重启后根数据文件夹的内容不会被删除。(这样我就可以在停止后恢复爬虫。)
您可以尝试使用以下方法更改爬虫的配置:
crawlConfig.setResumableCrawling(true);
在controller.java
课堂上。
您可以点击此链接并查看 Resumable crawling。