solr - 使用 HBase 使用 Nutch2.x 进行基于 ID 的爬网 -> SolrIndexerJob 不起作用

Question

我正在使用带有 hbase 0.90.6 的 Nutch2.x，我注意到的第一件奇怪的事情是它正在创建其前缀为 crawlId 的“网页”表，即如果我的 crawlId 是 C1，那么它将创建表为“C1_webpage”，我认为不应该。但它正在这样做，我的 nutch 工作 [ Inject -> Generate -> Fetch -> Parse -> DBUpdate ] 运行良好。

现在我面临的问题是，通过这个设置和 'C1_webpage' 表，SolrIndexjob 没有向 Solr 插入任何文档，因为我认为它在 'webpage' 表中查找文档，该表总是有 0 行，实际数据在 'C1_webpage' .

我应该如何解决我的这个问题？任何人都在使用带有 hbase 0.90.6 的 nutch2.x 并进行基于 Id 的爬行？

谢谢，托尼

score 0 · Accepted Answer

您可以通过 crawlId 使用下面的脚本运行 solrIndexerJob。这将仅索引 C1_webpage 表。

bin/nutch solrindex http://localhost:8983/solr -all -crawlId C1

solr - 使用 HBase 使用 Nutch2.x 进行基于 ID 的爬网 -> SolrIndexerJob 不起作用

1 回答 1

Related

Reference