web-crawler - Apache Nutch 2.3.1 opic 评分过滤器不起作用

Question

我在一个小型集群上配置了 Nutch 2.3.1 和完整的 Hadoop/Hbase 生态系统。我对 Nutch 中使用的评分算法很好奇。我在 Nutch 中找到并使用了 opic 评分过滤器。为了找到它的影响，我按照 Nutch WIKI中的指导在 Nutch IN（dbupdate 和 generate 阶段）的不同步骤检查分数。但是我发现，无论我运行多少次迭代以及获取多少个文档，每个文档的分数始终保持为零。在 opic 实现中是否存在一些问题，或者我缺少它的一些配置。

我观察到_csh_ 包含现金的字段在提取器阶段从 Hbase 的相应表中删除。

score 0 · Accepted Answer

我已经通过将更改放入OPICScoringFilter.java

src/plugin/scoring-opic/src/java/org/apache/nutch/scoring/opic/OPICScoringFilter.java

我已将其作为 UTF8 放入标记中。

-    row.getMetadata().put(CASH_KEY, ByteBuffer.wrap(Bytes.toBytes(score)));
+    row.getMarkers().put(CASH_KEY, new Utf8(Double.toString(score)));

web-crawler - Apache Nutch 2.3.1 opic 评分过滤器不起作用

1 回答 1

Related

Reference