0

我有一个 Nutch 爬行任务,它已经运行了一整天,直到我错误地终止了该过程。

我不想重新爬取种子(花费很多时间),所以我想知道那里是否有一种方法或一些 Nutch Crawler 参数可以使爬虫忽略那些已经爬过的网址。

非常感谢 !

4

1 回答 1

0

开始爬网后,可能会在输出目录中创建一些段。使用bin/nutch命令和指向-dir上一次运行的输出目录的选项。对于urlDir参数,创建一个具有单个 url 的虚拟对象(如果 urldir 中没有任何 url,则只是为了避免错误。)

于 2012-04-08T03:24:43.513 回答