对于 Nutch 2.2.1,我知道两个爬取命令 - bin/nutch(逐步)、bin/crawl(多合一)
我知道如何为bin/crawl
命令指定爬网 ID。同样,如何为bin/nutch
命令指定爬取ID?
我问的原因是,我使用all-in-one crawl command "bin/crawl"
指定的爬网 ID 运行了一个大型爬网作业,它在 Solr 中为第 9 次爬网迭代编制索引时中断了。现在,我只想为中断的第 9 次迭代运行一步"bin/nutch solrindex"
命令以完成 solr 索引。我应该如何在“”命令中指定 crawlID bin/nutch solrindex
?语法是什么?
我将所有爬网数据存储在 HBase 表“webpage_test”中