我有一个包含3M行和两列的 CSV 文件,它只是阿拉伯语 Student_name 和 Id,
我想将指代同一个学生的相似名字聚集在一起,例如,这些名字可能有拼写错误或多余的空格。
在集群输出中,有很多错过的匹配,例如,两个名称相同,其中一个有一个额外的空间,在结果文件中,它有时将它们聚类在一个聚类中,有时将它们聚类在不同的聚类中。
假设有五(5)个相似的名称,但拼写差异很小,在输出文件中,它在一个集群中给了我三(3)个,而其余的在不同的集群中,尽管它们有相似的差异。即使我按字母顺序对名称进行排序,也会发生这种情况。
我猜是阻塞功能的问题。
那正确吗?你能指导我修复它吗?如何增加块大小。
我试图在Cluster函数中增加max_components变量,但最终出现内存错误。
提前致谢。