0

我正在使用 spark 创建一个数据集,以使用 pyspark.ml 中的 minhashLSH 算法。

我有一张这样的桌子:

        Feature_1    Feature_2 ... Feature_n
User_1  value_1_1    value_2_1  ... Value_n_1
User_2  value_1_1    value_2_2 .... Value_n_2
...
User_n  value_1_2    value_2_54 ... value_n_2

基本上,我的目标是创建一个这样的表:

         User_1  User_2  User_3 .... User_n
Value_1_1  1        1      0    ...       0
Value_1_2  0        0      1    ...       0
Value_n_2  0        0      0    ...       1

...等等。

基本上,我想将值放在行上,将用户放在列上。每个特征都有不同的唯一值。

如果用户 1 在特征 1 中有 value_1_1,则取值为 1,否则为 0。如果用户 2 在特征 2 中有 value_2_1,则取值为 1,否则为 0

... 等等。

我这样做基本上是因为我想在 pyspark 中使用 minhashLSH 算法计算 jaccard 相似度。

有什么建议吗?

谢谢,祝你有美好的一天!

PS 以上数值只是一个例子!!!这不是我现在的 DF

4

0 回答 0