0

我一直在努力将源集与客户名称的主集相匹配,而这可以通过-adist在 R 中使用来实现,但现在我一直在使用 200 万个源集和 500k 个主集,这里我们不能使用它,adist因为它没有支持长向量,所以我已将数据分块为小集,现在我有 70 k 的源集和 20k 的主集,而这里的数据集大小不同,因此不能使用adist,因为它不支持可变大小的集,我已经尝试了各种其他方法来实现相同的效果amatch,但没有太大帮助pmatchagrep我参考了这些我找到但找不到解决方案的网站。

我已经尝试过levenshteinDist,但是在实现巨大的数据框时遇到问题levenshteinSimjarowinkler我可以为我的数据框找到类似于这个解决方案的解决方案,使用 jarowinkler 来处理不同大小的集合

4

0 回答 0