0

当 Nutch 完成爬网时,它会识别出要删除的重复项,并通过说“删除 xxx 个重复项”并顺利完成。唯一的问题是它实际上并没有删除重复项,尽管它说它已经删除了。

我也尝试过单独使用 dedup 命令,结果是一样的。

我有 Solr & Nutch 设置,如我的博客所示,如果您想更深入地研究,每个阶段都在不同的帖子中:

http://amac4.blogspot.co.uk/2013/07/setting-up-solr-with-apache-tomcat-be.html http://amac4.blogspot.co.uk/2013/07/setting-up -nutch-to-crawl-filesystem.html

4

1 回答 1

0

在 signatureField 标签中,我有“id”而不是“signature”

<updateRequestProcessorChain name="dedupe">
  <processor class="org.apache.solr.update.processor.SignatureUpdateProcessorFactory">
    <bool name="enabled">true</bool>
    <bool name="overwriteDupes">true</bool>
    <str name="signatureField">signature</str>
    <str name="fields">id</str>
    <str name="signatureClass">org.apache.solr.update.processor.Lookup3Signature</str>
  </processor>
  <processor class="solr.LogUpdateProcessorFactory" />
  <processor class="solr.RunUpdateProcessorFactory" />
</updateRequestProcessorChain>

现在完美运行

于 2013-08-09T15:02:38.387 回答