我在 solrconfig.xml 中使用了具有以下设置的 Solr 重复数据删除
<updateRequestProcessorChain name="dedupe">
<processor class="solr.processor.SignatureUpdateProcessorFactory">
<bool name="enabled">true</bool>
<str name="signatureField">signature</str>
<bool name="overwriteDupes">true</bool>
<str name="fields">description</str>
<str name="signatureClass">solr.processor.TextProfileSignature</str>
</processor>
<processor class="solr.LogUpdateProcessorFactory" />
<processor class="solr.RunUpdateProcessorFactory" />
</updateRequestProcessorChain>
并在 schema.xml
<field name="signature" type="string" stored="true" indexed="true" multiValued="false" />
我的目标是找到具有重复描述的文档(使用 TextProfileSignature 表示几乎重复)保留一个条目并删除其他重复条目。
例如 doc1 描述:Websol – 候选人应具有良好的沟通能力和计算机技能必须愿意搬迁 我们在国际呼叫中心的后台办公室有很好的职位空缺
doc2 描述:Websol – 候选人应具有良好的沟通能力和计算机技能必须愿意搬迁我们在国际呼叫中心的后台办公室有很好的职位空缺...
从这两个文档中只有一个要删除,而不是两个,但是使用 solr dedupe 两个条目都会被删除。
让我知道我是否在设置中缺少任何东西,或者我需要遵循其他方式来实现这一点。