作为我正在研究的项目的一部分,我正在寻找一种将 LSH 的散列函数与 Spark 结合使用的方法。有什么办法吗?
问问题
3483 次
2 回答
3
试试这个实现:
https://github.com/mrsqueeze/spark-hash
引用自述文件,“这个实现主要基于海量数据集挖掘的第 3 章中描述的算法”,其中对 LSH 和 minhashing 有很好的描述。
于 2015-01-04T01:51:39.373 回答
1
最近发布的 Spark (2.1.0) 版本提供了对 LSH 的内置支持,但显然只在 Scala API中(还没有在 PySpark 中)。
于 2016-12-31T03:01:26.393 回答