python - PySpark MinHashLSH - 获取每个桶的大小

问问题 2021-11-18T17:38:18.107

20 次

有没有办法在 PySpark 中获取 MinHashLSH 中每个桶的大小？

例如，如果我正在做类似的事情：

   mh = MinHashLSH(inputCol = "features", outputCol = "hashes", numHashTables = 5)
   model = mh.fit(vectorized_df)
   hashed_df = mh.fit(vectorized_df).transform(vectorized_df)
    
   model.approxSimilarityJoin(hashed_txt_df, hashed_txt_df, 0.3).filter("datasetA.id < datasetB.id")

这让我得到了 Jaccard 距离为 0.3 的结果，但是无论如何可以查看使用的不同存储桶的大小？

python - PySpark MinHashLSH - 获取每个桶的大小

0 回答 0

Related

Reference