我有一个 Nutch 爬行任务,它已经运行了一整天,直到我错误地终止了该过程。
我不想重新爬取种子(花费很多时间),所以我想知道那里是否有一种方法或一些 Nutch Crawler 参数可以使爬虫忽略那些已经爬过的网址。
非常感谢 !
我有一个 Nutch 爬行任务,它已经运行了一整天,直到我错误地终止了该过程。
我不想重新爬取种子(花费很多时间),所以我想知道那里是否有一种方法或一些 Nutch Crawler 参数可以使爬虫忽略那些已经爬过的网址。
非常感谢 !
开始爬网后,可能会在输出目录中创建一些段。使用bin/nutch命令和指向-dir
上一次运行的输出目录的选项。对于urlDir
参数,创建一个具有单个 url 的虚拟对象(如果 urldir 中没有任何 url,则只是为了避免错误。)