0

有没有办法在 PySpark 中获取 MinHashLSH 中每个桶的大小?

例如,如果我正在做类似的事情:

   mh = MinHashLSH(inputCol = "features", outputCol = "hashes", numHashTables = 5)
   model = mh.fit(vectorized_df)
   hashed_df = mh.fit(vectorized_df).transform(vectorized_df)
    
   model.approxSimilarityJoin(hashed_txt_df, hashed_txt_df, 0.3).filter("datasetA.id < datasetB.id")

这让我得到了 Jaccard 距离为 0.3 的结果,但是无论如何可以查看使用的不同存储桶的大小?

4

0 回答 0