我想搜索具有编辑距离的 Lucene 索引。例如,假设有一个包含字段 FIRST_NAME 的文档;我想要所有名字与“约翰”相距 1 编辑距离的文档。
我知道 Lucene 支持模糊搜索 (FIRST_NAME:john~) 并采用 0 到 1 之间的数字来控制模糊性。问题(对我来说)是这个数字不能直接转化为编辑距离。当文档中的值是短字符串(少于 3 个字符)时,模糊搜索很难找到它们。例如,如果有一个带有 FIRST_NAME 'J' 的文档,我搜索 FIRST_NAME:I~0.0 我什么也得不到。