0

我正在使用带有 hbase 0.90.6 的 Nutch2.x,我注意到的第一件奇怪的事情是它正在创建其前缀为 crawlId 的“网页”表,即如果我的 crawlId 是 C1,那么它将创建表为“C1_webpage”,我认为不应该。但它正在这样做,我的 nutch 工作 [ Inject -> Generate -> Fetch -> Parse -> DBUpdate ] 运行良好。

现在我面临的问题是,通过这个设置和 'C1_webpage' 表,SolrIndexjob 没有向 Solr 插入任何文档,因为我认为它在 'webpage' 表中查找文档,该表总是有 0 行,实际数据在 'C1_webpage' .

我应该如何解决我的这个问题?任何人都在使用带有 hbase 0.90.6 的 nutch2.x 并进行基于 Id 的爬行?

谢谢,托尼

4

1 回答 1

0

您可以通过 crawlId 使用下面的脚本运行 solrIndexerJob。这将仅索引 C1_webpage 表。

bin/nutch solrindex http://localhost:8983/solr -all -crawlId C1
于 2013-08-24T09:05:10.933 回答