我试图通过在名称的变音位表示的二元组上应用 MinHashLSH 在两个数据帧之间进行相似性连接。这在大多数情况下效果很好,但似乎不能处理短子字符串情况。
例如,我想查找具有类似于“LTSNKK”
的变音位的名称。近似相似连接的结果如下所示:
| Metaphone | Confidence |
|------------------|------------|
| LTSNKK | 0.000 |
| MLTSNKK | 0.166 |
| LTSNK | 0.199 |
| PLTSSNKK | 0.285 |
| LTSNKT | 0.333 |
| AFLNKNKPRSNLTRNR | 0.812 |
但是,还有另一个名称没有被连接捕获,“LTS”。我预计“LTS”会以 0.2 左右的置信度出现,但事实并非如此。
我的连接配置为 1.0 的最大置信度,将限制提高到更高的值没有任何效果。
approxSimilarityJoin(hashedInputFrame, hashedReferenceFrame, 1.0, "confidence")
pyspark 的近似相似性连接是否存在一些隐藏的限制,会导致它忽略“LTS”但考虑“LTSNK”?