我正在使用带有 hbase 0.90.6 的 Nutch2.x,我注意到的第一件奇怪的事情是它正在创建其前缀为 crawlId 的“网页”表,即如果我的 crawlId 是 C1,那么它将创建表为“C1_webpage”,我认为不应该。但它正在这样做,我的 nutch 工作 [ Inject -> Generate -> Fetch -> Parse -> DBUpdate ] 运行良好。
现在我面临的问题是,通过这个设置和 'C1_webpage' 表,SolrIndexjob 没有向 Solr 插入任何文档,因为我认为它在 'webpage' 表中查找文档,该表总是有 0 行,实际数据在 'C1_webpage' .
我应该如何解决我的这个问题?任何人都在使用带有 hbase 0.90.6 的 nutch2.x 并进行基于 Id 的爬行?
谢谢,托尼