我有一个数据库,它在同一个表中有非常相似的行。这些行是相似的,因为它们具有几乎相等的列值。我需要将这些相应的行整合到一行中。
例如,应该集成这两个用户(u1 和 u2):
u1 = User(name = "William Henry Gates III",
age = 55,
nationality = "american",
alma_mater = "Harvard Univesity")
u2 = User(name: "William Henry 'Bill' Gates III",
age: 55,
nationality: "America",
alma_mater: "Harvard U.")
我正在考虑使用一些编辑距离和词干技术。其他算法和技术建议?有什么有用的库可以使用(最好是 Python 或 Java)?