我正在尝试使用.approxSimilarityJoin
Spark MLlib LSH: MinHash for Jaccard Distance例如
val mh = new MinHashLSH()
.setNumHashTables(5)
.setInputCol("features")
.setOutputCol("hashes")
我知道 numHashTables 越高,系统越准确,计算越复杂/越慢。我有两个关于参数的问题:
- numHashTables 和 MinHash 指纹大小有什么关系?
- 如何正确设置值?
注意:我相信该算法已被 Uber 添加到 MLlib:https ://eng.uber.com/lsh/