我有 20 万多个姓名和姓氏记录的大型 MongoDB 数据库。
我如何优化添加新记录的过程,如果在插入之前我想计算所有 200k+ 记录的 levinstein 距离,并且只有当它高于垃圾桶以避免碰撞时才进行插入(这意味着新的名字和姓氏由于一些翻译错误,记录可能会略有不同,但仍然是同一个人)。
关于人的数据是从不同的来源获取的,所以我希望同一个人的信息不会在数据库中重复和分散。
我有 20 万多个姓名和姓氏记录的大型 MongoDB 数据库。
我如何优化添加新记录的过程,如果在插入之前我想计算所有 200k+ 记录的 levinstein 距离,并且只有当它高于垃圾桶以避免碰撞时才进行插入(这意味着新的名字和姓氏由于一些翻译错误,记录可能会略有不同,但仍然是同一个人)。
关于人的数据是从不同的来源获取的,所以我希望同一个人的信息不会在数据库中重复和分散。