solr - Solr - 最近匹配 - 此功能是否存在？

Question

在比较存储在 Solr 数据存储中的“指纹”类型数据时，Solr 能否为您提供最接近的匹配。例如，

   eJyFk0uyJSEIBbcEyEeWAwj7X8JzfDvKnuTAJIojWACwGB4QeM  
   HWCw0vLHlB8IWeF6hf4PNC2QunX3inWvDCO9WsF7heGHrhvYV3qvPEu-  
   87s9ELLi_8J9VzknReEH1h-BOKRULBwyZiEulgQZZr5a6OS8tqCo00cd  
   p86ymhoxZrbtQdgUxQvX5sIlF_2gUGQUDbM_ZoC28DDkpKNCHVkKCgpd  
   OHf-wweX9adQycnWtUoDjABumQwbJOXSZNur08Ew4ra8lxnMNuveIem6  
   LVLQKsIRLAe4gbj5Uxl96RpdOQ_Noz7f5pObz3_WqvEytYVsa6P707Jz  
   j4Oa7BVgpbKX5tS_qntcB9G--1tc7ZDU1HamuDI6q07vNpQTFx22avyR

如果给它呈现极其相似的东西，它能找到这个记录吗？它可以提供信心分数吗？

score 1 · Accepted Answer

一种直接的方法可能是使用模糊搜索，并选择第一个命中（按分数），然后您需要检查命中是否匹配，也许通过测试您可以找到一些好的经验法则。

但不确定性能是否会成为这么长的令牌的问题。使用 Lucene4.0，模糊性能得到很大改善。

score 0 · Accepted Answer

您可以尝试使用Ngram 过滤器工厂。您可以选择与匹配/相似指纹一致的最小/最大克大小。

如果您的 minGramSize 和 maxGramSize 范围很窄，则可以匹配具有相似指纹的文档，而无需遍历误报。

solr - Solr - 最近匹配 - 此功能是否存在？

2 回答 2

Related

Reference