java - 有什么办法可以继续被意外杀死的Nutch Crawl任务吗？

Question

我有一个 Nutch 爬行任务，它已经运行了一整天，直到我错误地终止了该过程。

我不想重新爬取种子（花费很多时间），所以我想知道那里是否有一种方法或一些 Nutch Crawler 参数可以使爬虫忽略那些已经爬过的网址。

非常感谢！

score 0 · Accepted Answer

开始爬网后，可能会在输出目录中创建一些段。使用bin/nutch命令和指向-dir上一次运行的输出目录的选项。对于urlDir参数，创建一个具有单个 url 的虚拟对象（如果 urldir 中没有任何 url，则只是为了避免错误。）

1 回答 1