假设我正在比较两个人,每个人都有名字、姓氏、邮政编码、地址(line1)、地址(line2)和电话号码。这些都具有不同的可靠性和确定匹配的重要性。
我可以毫无问题地为每个字段生成 JW 距离。我如何将这些结合起来,对两个人的相似度进行合理的评价?
到目前为止,我所想到的只是权衡不同的 JW 评级,使其与它们的相关性成比例,然后取一个加权平均值。我觉得必须有一些更好的技术。
假设我正在比较两个人,每个人都有名字、姓氏、邮政编码、地址(line1)、地址(line2)和电话号码。这些都具有不同的可靠性和确定匹配的重要性。
我可以毫无问题地为每个字段生成 JW 距离。我如何将这些结合起来,对两个人的相似度进行合理的评价?
到目前为止,我所想到的只是权衡不同的 JW 评级,使其与它们的相关性成比例,然后取一个加权平均值。我觉得必须有一些更好的技术。