我有两个包含客户姓名的列表。名称可以相似或不同。如何使用python找到这两个列表之间的相似性?
在具有相似性之后,我想将相应的数据从一个 excel 文件拉到另一个。
例子:
清单 1:
Customer Name Unique ID
IBM 2365
BOA 5456
BMW AG 2456
清单 2:
Customer Name Unique ID
IBM Pvt Ltd
BMW Group
Robert Bosch
BOA Ltd
这只是一个示例数据。实际数据包含近 30 万行。
我尝试通过将两个列表作为 excel 文件分别传递给函数来尝试 Jaccard Similarity,但结果(即 Jaccard Similarity)始终为零。
编辑:如何遍历两个列表,将每个元素与其他列表的所有元素进行比较并构建距离矩阵?
然后,我想按降序对该矩阵的每一行进行排序,以了解它们之间最接近的匹配。或者有没有其他更好的方法来知道矩阵构建后最接近的匹配?