0

我有两个包含客户姓名的列表。名称可以相似或不同。如何使用python找到这两个列表之间的相似性?

在具有相似性之后,我想将相应的数据从一个 excel 文件拉到另一个。

例子:

清单 1:

Customer Name       Unique ID
IBM                 2365
BOA                 5456
BMW AG              2456

清单 2:

Customer Name     Unique ID
IBM Pvt Ltd        
BMW Group
Robert Bosch
BOA Ltd

这只是一个示例数据。实际数据包含近 30 万行。

我尝试通过将两个列表作为 excel 文件分别传递给函数来尝试 Jaccard Similarity,但结果(即 Jaccard Similarity)始终为零。

编辑:如何遍历两个列表,将每个元素与其他列表的所有元素进行比较并构建距离矩阵?

然后,我想按降序对该矩阵的每一行进行排序,以了解它们之间最接近的匹配。或者有没有其他更好的方法来知道矩阵构建后最接近的匹配?

4

1 回答 1

0

你能详细说明一下你的问题吗?

相似性 beetwen 2 列表是什么意思?

当您说 List 时,您的意思是 CSV/Excel List 或 Python list 。如果您正在查看距离 beetwen 字符串,您可能需要查看 Levenshtein Algorithm 。https://www.geeksforgeeks.org/edit-distance-dp-5/

Pythonic - https://www.python-course.eu/levenshtein_distance.php

由于您的数据量很大,因此 Alsp 检查外部合并排序策略

于 2018-11-26T09:57:31.267 回答