我正在浏览所有现有的问题帖子,但无法获得非常相关的内容。
我有数百万条记录的人名、姓氏、地址 1、地址 2、国家代码、出生日期 - 我想每天检查我的客户名单和上述文件(我的客户名单也每天更新,并且文件也会每天更新)。
对于名字和姓氏,我想要模糊匹配(可能是 lucene 模糊查询/levenshtein 距离 90% 匹配),对于其余字段国家和出生日期,我想要完全匹配。
我是 Lucene 的新手,但是通过查看帖子的数量,看起来是可能的。
我的问题是:
- 我应该如何索引我的输入文件?我需要在 FN、LN、国家、DOB 的组合上建立索引并使用索引进行搜索
- 我如何在这里使用 Lucene 的模糊查询?
还有其他方法可以实现吗?