java - 在多台计算机上运行 crawler4j | 不同的实例| 根文件夹锁定

Question

我正在尝试使用crawler4j来实现爬虫。它运行良好，直到：

如果我重新启动爬虫，收集的 url 不是唯一的。这是因为，爬虫锁定了根文件夹（存储中间爬虫数据并作为参数传递）。当爬虫重新启动时，它会删除根数据文件夹的内容。

是否有可能：？

score 0 · Accepted Answer

您可以尝试使用以下方法更改爬虫的配置：

crawlConfig.setResumableCrawling(true);

在controller.java课堂上。

您可以点击此链接并查看 Resumable crawling。

1 回答 1