0

我有一个带有疾病症状的 DataFrame,我想在整个 DataFrame 上运行 FP Growt。FP Growt 想要一个数组作为输入,它使用以下代码:

dfFPG = (df.select(F.array(df["Gender"], 
                        df["Polyuria"], 
                        df["Polydipsia"], 
                        df["Sudden weight loss"], 
                        df["Weakness"], 
                        df["Polyphagia"],
                        df["Genital rush"],
                        df["Visual blurring"],
                        df["Itching"]).alias("features")

from pyspark.ml.fpm import FPGrowth
fpGrowth = FPGrowth(itemsCol="features", minSupport=0.3, minConfidence=0.2)
model = fpGrowth.fit(dfFPG)

model.freqItemsets.show(20,truncate=False)

功能列表更长,如果我必须更改 df 的名称,我必须使用查找和替换。我知道我可以使用F.col("Gender")而不是,df["Gender"]但是有没有办法将所有列F.array()一次放入其中并且能够排除其中的一些列df["Age"]?或者,有没有其他有效的方法可以为我不知道的 FP Growt 准备分类特征?

4

1 回答 1

1

您可以使用获取所有列名df.columns并将它们全部放入array

import pyspark.sql.functions as F

dfFPG = df.select(F.array(*[c for c in df.columns if c not in ['col1', 'col2']]).alias("features"))
于 2021-02-02T08:50:10.433 回答