我有一个搜索和匹配问题:
输入
在我的数据库中,除了一些其他匹配特征之外,我还有数千个名称:几列数字数据和几列有助于识别这家特定公司的其他文本。
一个潜在客户有大约 500 个公司名称,然后为每个名称添加了上面提到的稀疏的附加特征。
当前流程
过去,该过程一直是手动的,尝试通过搜索数据库来匹配客户提供的每个名称,找到一个“喜欢”向我报告的名称,然后验证附加特征是否匹配。但是,主要问题是报告的名称不一样,通常可能包含缩写或仅包含存储在我的数据库中的部分名称,并且附加特征也可能不完整或仅部分匹配。
自动化
我想自动化这个过程,因为它经常发生。最佳解决方案是从客户列表中输入一家公司以及他们为其填写的任何其他特征,然后尝试在我的数据库中找到前 5 个匹配项。
我从未使用过 Lucene 或 Sphinx,但它们似乎更受文档驱动。有没有办法格式化这些输入,以便这些库可以解决这个问题,或者相反,还有哪些其他软件工具可以工作?