包含超过 300 万行名称(姓名、姓氏、父亲姓名)的表。我希望检查相似性超过 90%。我使用了许多模糊算法以及 utl_match 相似性(jaro_winkler、edit_distance)。这些算法的性能并不好。(超过 20 秒。)我想检查变化的地方,但它的工作时间很长。像:姓氏父亲姓氏,姓氏姓氏姓氏,姓氏姓氏,............我找不到任何性能良好的算法,它适用于事务系统。
问问题
67 次
包含超过 300 万行名称(姓名、姓氏、父亲姓名)的表。我希望检查相似性超过 90%。我使用了许多模糊算法以及 utl_match 相似性(jaro_winkler、edit_distance)。这些算法的性能并不好。(超过 20 秒。)我想检查变化的地方,但它的工作时间很长。像:姓氏父亲姓氏,姓氏姓氏姓氏,姓氏姓氏,............我找不到任何性能良好的算法,它适用于事务系统。