我正在使用 spark 创建一个数据集,以使用 pyspark.ml 中的 minhashLSH 算法。
我有一张这样的桌子:
Feature_1 Feature_2 ... Feature_n
User_1 value_1_1 value_2_1 ... Value_n_1
User_2 value_1_1 value_2_2 .... Value_n_2
...
User_n value_1_2 value_2_54 ... value_n_2
基本上,我的目标是创建一个这样的表:
User_1 User_2 User_3 .... User_n
Value_1_1 1 1 0 ... 0
Value_1_2 0 0 1 ... 0
Value_n_2 0 0 0 ... 1
...等等。
基本上,我想将值放在行上,将用户放在列上。每个特征都有不同的唯一值。
如果用户 1 在特征 1 中有 value_1_1,则取值为 1,否则为 0。如果用户 2 在特征 2 中有 value_2_1,则取值为 1,否则为 0
... 等等。
我这样做基本上是因为我想在 pyspark 中使用 minhashLSH 算法计算 jaccard 相似度。
有什么建议吗?
谢谢,祝你有美好的一天!
PS 以上数值只是一个例子!!!这不是我现在的 DF