我正在尝试在 python 中使用 Jaro Winkler 算法实现字符串之间的相似度度量,我正在使用 anaconda 环境并将其部署在阿里云 ECS 实例上。
我用来查找相似性的示例代码:
from pyjarowinkler import distance
print ("Average Score ---->", distance.get_jaro_distance("hello", "haloa"))
Average Score ---->0.76
当我处理 60 万条记录时,需要 20 多分钟。处理大量记录非常慢。有没有其他方法可以以低开销和高精度找到记录之间的相似性度量?