2

作为我正在研究的项目的一部分,我正在寻找一种将 LSH 的散列函数与 Spark 结合使用的方法。有什么办法吗?

4

2 回答 2

3

试试这个实现:

https://github.com/mrsqueeze/spark-hash

引用自述文件,“这个实现主要基于海量数据集挖掘的第 3 章中描述的算法”,其中对 LSH 和 minhashing 有很好的描述。

于 2015-01-04T01:51:39.373 回答
1

最近发布的 Spark (2.1.0) 版本提供了对 LSH 的内置支持,但显然只在 Scala API中(还没有在 PySpark 中)。

于 2016-12-31T03:01:26.393 回答