我正在尝试为我的 Lucene.net 应用程序设计一个重复捕获方案。我的问题是很难制作唯一的密钥,因为许多字段都是相同的。我知道唯一不同的字段是 Title 和 Abstract 字段。从中制作密钥的问题是有人可能会稍微更改标题,并且它也会被视为独一无二的。基本上,我正在寻找一种设置阈值的方法,如果它们 95% 匹配,那就是匹配。有没有办法用 Lucene 做到这一点?
问问题
174 次
我正在尝试为我的 Lucene.net 应用程序设计一个重复捕获方案。我的问题是很难制作唯一的密钥,因为许多字段都是相同的。我知道唯一不同的字段是 Title 和 Abstract 字段。从中制作密钥的问题是有人可能会稍微更改标题,并且它也会被视为独一无二的。基本上,我正在寻找一种设置阈值的方法,如果它们 95% 匹配,那就是匹配。有没有办法用 Lucene 做到这一点?