apache-spark - 局部敏感散列的 Spark 实现

Question

作为我正在研究的项目的一部分，我正在寻找一种将 LSH 的散列函数与 Spark 结合使用的方法。有什么办法吗？

score 3 · Accepted Answer

试试这个实现：

引用自述文件，“这个实现主要基于海量数据集挖掘的第 3 章中描述的算法”，其中对 LSH 和 minhashing 有很好的描述。

score 1 · Accepted Answer

最近发布的 Spark (2.1.0) 版本提供了对 LSH 的内置支持，但显然只在 Scala API中（还没有在 PySpark 中）。

2 回答 2