我正在尝试通过根据此链接更新 solrconfig.xml 和 schema.xml 在 Solr 中实现重复数据删除: https ://lucene.apache.org/solr/guide/7_6/de-duplication.html
重复数据删除生成文件签名,但签名设置为 0000000000000000(16 个零)。我看到另一个帖子问同样的问题,但没有人回答: Solr Deduplication (dedupe)giving all zeros in signatureField
笔记:
版本:Solr 7.6.0
在查看源代码中的包名称后,我将许多 solr.processor.* 类更新为 solr.update.processor.*: https ://github.com/apache/lucene-solr/tree/branch_7_6/solr/核心/src/java/org/apache/solr/update/processor
我的文件设置:
solrconfig.xml:
<updateRequestProcessorChain name="dedupe">
<processor class="solr.update.processor.SignatureUpdateProcessorFactory">
<bool name="enabled">true</bool>
<str name="signatureField">signature</str>
<bool name="overwriteDupes">true</bool>
<str name="fields">name,content</str>
<str name="signatureClass">solr.update.processor.Lookup3Signature</str>
</processor>
<processor class="solr.update.LogUpdateProcessorFactory" />
<processor class="solr.update.RunUpdateProcessorFactory" />
</updateRequestProcessorChain>
<requestHandler name="/update" class="solr.UpdateRequestHandler" >
<lst name="defaults">
<str name="update.chain">dedupe</str>
</lst>
</requestHandler>
架构.xml:
<field name="signature" type="string" stored="true" indexed="true" multiValued="false" />
任何帮助表示赞赏!:)