python - 重复数据删除库、阻塞问题、缺少匹配项

翻译自：https://stackoverflow.com/questions/66527612 2021-03-08T09:52:47.457

38 次

1

我有一个包含3M行和两列的 CSV 文件，它只是阿拉伯语 Student_name 和 Id，

我想将指代同一个学生的相似名字聚集在一起，例如，这些名字可能有拼写错误或多余的空格。

在集群输出中，有很多错过的匹配，例如，两个名称相同，其中一个有一个额外的空间，在结果文件中，它有时将它们聚类在一个聚类中，有时将它们聚类在不同的聚类中。

假设有五（5）个相似的名称，但拼写差异很小，在输出文件中，它在一个集群中给了我三（3）个，而其余的在不同的集群中，尽管它们有相似的差异。即使我按字母顺序对名称进行排序，也会发生这种情况。

我猜是阻塞功能的问题。

那正确吗？你能指导我修复它吗？如何增加块大小。

我试图在Cluster函数中增加max_components变量，但最终出现内存错误。

提前致谢。

0 回答 0