4

我正在尝试使用.approxSimilarityJoinSpark MLlib LSH: MinHash for Jaccard Distance例如

val mh = new MinHashLSH()
    .setNumHashTables(5)
    .setInputCol("features")
    .setOutputCol("hashes")

我知道 numHashTables 越高,系统越准确,计算越复杂/越慢。我有两个关于参数的问题:

  • numHashTables 和 MinHash 指纹大小有什么关系?
  • 如何正确设置值?

注意:我相信该算法已被 Uber 添加到 MLlib:https ://eng.uber.com/lsh/

4

0 回答 0