通过使用归一化 levenshtein 距离函数和 trigram 相似度函数,比较来自两个数据集的记录的模糊匹配字符串相似度。计算 4 种不同的相似度指标:LevCmpSimilarity - 比较复合(连接)字段的归一化 Levenshtein 相似度,LevWghSimilarity - 归一化 Levenshtein 相似度作为所有被比较字段的摘要,TrgWgh 和 TrgCmp - 与 Levenshtein 相同,但使用 Trigram Similarity 函数莱文斯坦,
以下是频率和累积频率的所有四个指标的直方图。
我的问题是:这些频率分布模式是否可以用于自动无监督地确定记录匹配接受/拒绝的最佳阈值?如果答案是肯定的,你能建议方向吗?
基本上,levenshtein 距离和 trigram 相似值频率模式是否可以仅用于推断模糊匹配记录链接的最佳阈值?