有没有办法在 PySpark 中获取 MinHashLSH 中每个桶的大小?
例如,如果我正在做类似的事情:
mh = MinHashLSH(inputCol = "features", outputCol = "hashes", numHashTables = 5)
model = mh.fit(vectorized_df)
hashed_df = mh.fit(vectorized_df).transform(vectorized_df)
model.approxSimilarityJoin(hashed_txt_df, hashed_txt_df, 0.3).filter("datasetA.id < datasetB.id")
这让我得到了 Jaccard 距离为 0.3 的结果,但是无论如何可以查看使用的不同存储桶的大小?