python - 用python计算200k字符串的levenshtein距离

翻译自：https://stackoverflow.com/questions/19396211 2013-10-16T05:57:04.553

130 次

我有 20 万多个姓名和姓氏记录的大型 MongoDB 数据库。

我如何优化添加新记录的过程，如果在插入之前我想计算所有 200k+ 记录的 levinstein 距离，并且只有当它高于垃圾桶以避免碰撞时才进行插入（这意味着新的名字和姓氏由于一些翻译错误，记录可能会略有不同，但仍然是同一个人）。

关于人的数据是从不同的来源获取的，所以我希望同一个人的信息不会在数据库中重复和分散。

0 回答 0