0

我正在尝试使用 Lucene 进行 undup 或 dedup 匹配。本质上,我有一个文件,其中包含要根据某些字段(模糊搜索)进行分组的记录,并使用匹配键返回结果,该匹配键告诉我该文件中的哪些记录相互匹配。

这可能吗?

4

2 回答 2

0

这可以做到(如果我理解正确的话)。您将索引您的术语/记录将在一次通过中进行搜索。在第二遍中,您将搜索每个术语并记录结果。

于 2012-06-22T15:24:28.897 回答
0

在预处理文档时,您可以生成一个聚合这些字段的哈希,并将其存储(作为NOT_ANALYZED),这样您只需按一个已知大小的字段进行搜索,看看MessageDigest。这是我通常对文件内容的重复检测所做的(因为内容可能对于单个查询来说太大了)。

如果您正在寻找的是创建更复杂的查询,请尝试使用CachingWrapperFilter,这样后续对重复数据删除算法的调用会更快。

于 2012-06-26T21:40:24.277 回答