我目前正在使用方法 get_close_matches 来自difflib的方法来遍历 15,000 个字符串的列表,以获得与另一个大约 15,000 个字符串列表的最接近匹配:
a=['blah','pie','apple'...]
b=['jimbo','zomg','pie'...]
for value in a:
difflib.get_close_matches(value,b,n=1,cutoff=.85)
每个值需要 0.58 秒,这意味着完成循环需要 8,714 秒或 145 分钟。是否有另一种可能更快的库/方法或提高此方法速度的方法?我已经尝试将两个数组都转换为小写,但这只会导致速度略有提高。