apache-spark - 用于 minhashLSH 的 Pyspark 预处理（Jaccard 相似度）

翻译自：https://stackoverflow.com/questions/69050713 2021-09-03T21:28:58.777

123 次

我正在使用 spark 创建一个数据集，以使用 pyspark.ml 中的 minhashLSH 算法。

我有一张这样的桌子：

        Feature_1    Feature_2 ... Feature_n
User_1  value_1_1    value_2_1  ... Value_n_1
User_2  value_1_1    value_2_2 .... Value_n_2
...
User_n  value_1_2    value_2_54 ... value_n_2

基本上，我的目标是创建一个这样的表：

         User_1  User_2  User_3 .... User_n
Value_1_1  1        1      0    ...       0
Value_1_2  0        0      1    ...       0
Value_n_2  0        0      0    ...       1

...等等。

基本上，我想将值放在行上，将用户放在列上。每个特征都有不同的唯一值。

如果用户 1 在特征 1 中有 value_1_1，则取值为 1，否则为 0。如果用户 2 在特征 2 中有 value_2_1，则取值为 1，否则为 0

... 等等。

我这样做基本上是因为我想在 pyspark 中使用 minhashLSH 算法计算 jaccard 相似度。

有什么建议吗？

谢谢，祝你有美好的一天！

PS 以上数值只是一个例子！！！这不是我现在的 DF

apache-spark - 用于 minhashLSH 的 Pyspark 预处理（Jaccard 相似度）

0 回答 0

Related

Reference