0

在比较存储在 Solr 数据存储中的“指纹”类型数据时,Solr 能否为您提供最接近的匹配。例如,

   eJyFk0uyJSEIBbcEyEeWAwj7X8JzfDvKnuTAJIojWACwGB4QeM  
   HWCw0vLHlB8IWeF6hf4PNC2QunX3inWvDCO9WsF7heGHrhvYV3qvPEu-  
   87s9ELLi_8J9VzknReEH1h-BOKRULBwyZiEulgQZZr5a6OS8tqCo00cd  
   p86ymhoxZrbtQdgUxQvX5sIlF_2gUGQUDbM_ZoC28DDkpKNCHVkKCgpd  
   OHf-wweX9adQycnWtUoDjABumQwbJOXSZNur08Ew4ra8lxnMNuveIem6  
   LVLQKsIRLAe4gbj5Uxl96RpdOQ_Noz7f5pObz3_WqvEytYVsa6P707Jz  
   j4Oa7BVgpbKX5tS_qntcB9G--1tc7ZDU1HamuDI6q07vNpQTFx22avyR

如果给它呈现极其相似的东西,它能找到这个记录吗?它可以提供信心分数吗?

4

2 回答 2

1

一种直接的方法可能是使用模糊搜索,并选择第一个命中(按分数),然后您需要检查命中是否匹配,也许通过测试您可以找到一些好的经验法则。

但不确定性能是否会成为这么长的令牌的问题。使用 Lucene4.0,模糊性能得到很大改善。

于 2012-07-13T17:49:53.013 回答
0

您可以尝试使用Ngram 过滤器工厂。 您可以选择与匹配/相似指纹一致的最小/最大克大小。

如果您的 minGramSize 和 maxGramSize 范围很窄,则可以匹配具有相似指纹的文档,而无需遍历误报。

于 2012-07-13T23:13:26.753 回答