我一直在努力将源集与客户名称的主集相匹配,而这可以通过-adist
在 R 中使用来实现,但现在我一直在使用 200 万个源集和 500k 个主集,这里我们不能使用它,adist
因为它没有支持长向量,所以我已将数据分块为小集,现在我有 70 k 的源集和 20k 的主集,而这里的数据集大小不同,因此不能使用adist
,因为它不支持可变大小的集,我已经尝试了各种其他方法来实现相同的效果amatch
,但没有太大帮助pmatch
,agrep
我参考了这些我找到但找不到解决方案的网站。
我已经尝试过levenshteinDist
,但是在实现巨大的数据框时遇到问题levenshteinSim
,jarowinkler
我可以为我的数据框找到类似于这个解决方案的解决方案,使用 jarowinkler 来处理不同大小的集合