1

对于 Nutch 2.2.1,我知道两个爬取命令 - bin/nutch(逐步)、bin/crawl(多合一)

我知道如何为bin/crawl命令指定爬网 ID。同样,如何为bin/nutch命令指定爬取ID?

我问的原因是,我使用all-in-one crawl command "bin/crawl"指定的爬网 ID 运行了一个大型爬网作业,它在 Solr 中为第 9 次爬网迭代编制索引时中断了。现在,我只想为中断的第 9 次迭代运行一步"bin/nutch solrindex"命令以完成 solr 索引。我应该如何在“”命令中指定 crawlID bin/nutch solrindex?语法是什么?

我将所有爬网数据存储在 HBase 表“webpage_test”中

4

1 回答 1

1

您可以运行 bin/nutch solrindex 并在参数中传递 crawl 和 segments 文件夹。

Nutch 将索引所有文档但不会创建重复,因为它将使用 ID 字段来确定它们是否已被插入。

于 2013-10-25T16:13:24.620 回答