2

我面临一个问题,我需要提供一个搜索功能,用户可以提供“他/她知道的尽可能多的信息”。然后应该将此数据集与不同的查找表进行匹配,以确定我是否可以可靠地将其与我们的本地 id 之一相关联。例如,如果我们有此搜索查询的记录。大多数字段都是模糊的。

示例: 一个字段可以是名称(用户只有名字)和另一个街道,用户只有街道号。

数据集大小适中(约 10M 个条目)。

解决这个问题的最佳方法是什么?SQL + soundex?卢森?

谢谢!

4

1 回答 1

0

您可以在 Lucene 中对文档进行评分并比较相似度。像 Lucene 这样的倒排索引工具应该比 SQL 中的传统键值查找更快且更具可扩展性。

于 2014-07-18T09:05:10.773 回答