0

我试图通过在名称的变音位表示的二元组上应用 MinHashLSH 在两个数据帧之间进行相似性连接。这在大多数情况下效果很好,但似乎不能处理短子字符串情况。

例如,我想查找具有类似于“LTSNKK”
的变音位的名称。近似相似连接的结果如下所示:

| Metaphone        | Confidence |  
|------------------|------------|  
| LTSNKK           | 0.000      |  
| MLTSNKK          | 0.166      |  
| LTSNK            | 0.199      |  
| PLTSSNKK         | 0.285      |  
| LTSNKT           | 0.333      |  
| AFLNKNKPRSNLTRNR | 0.812      |

但是,还有另一个名称没有被连接捕获,“LTS”。我预计“LTS”会以 0.2 左右的置信度出现,但事实并非如此。

我的连接配置为 1.0 的最大置信度,将限制提高到更高的值没有任何效果。

approxSimilarityJoin(hashedInputFrame, hashedReferenceFrame, 1.0, "confidence")

pyspark 的近似相似性连接是否存在一些隐藏的限制,会导致它忽略“LTS”但考虑“LTSNK”?

4

0 回答 0