solr - Nutch 不会从 Solr 中删除重复项

Question

当 Nutch 完成爬网时，它会识别出要删除的重复项，并通过说“删除 xxx 个重复项”并顺利完成。唯一的问题是它实际上并没有删除重复项，尽管它说它已经删除了。

我也尝试过单独使用 dedup 命令，结果是一样的。

我有 Solr & Nutch 设置，如我的博客所示，如果您想更深入地研究，每个阶段都在不同的帖子中：

http://amac4.blogspot.co.uk/2013/07/setting-up-solr-with-apache-tomcat-be.html http://amac4.blogspot.co.uk/2013/07/setting-up -nutch-to-crawl-filesystem.html

score 0 · Accepted Answer

在 signatureField 标签中，我有“id”而不是“signature”

<updateRequestProcessorChain name="dedupe">
  <processor class="org.apache.solr.update.processor.SignatureUpdateProcessorFactory">
    <bool name="enabled">true</bool>
    <bool name="overwriteDupes">true</bool>
    <str name="signatureField">signature</str>
    <str name="fields">id</str>
    <str name="signatureClass">org.apache.solr.update.processor.Lookup3Signature</str>
  </processor>
  <processor class="solr.LogUpdateProcessorFactory" />
  <processor class="solr.RunUpdateProcessorFactory" />
</updateRequestProcessorChain>

现在完美运行

solr - Nutch 不会从 Solr 中删除重复项

1 回答 1

Related

Reference