python - Spark UDF：将 np.sum 应用于数据帧中的值列表并根据阈值过滤值

问问题 2021-06-22T21:15:09.097

26 次

非常了解使用 spark 进行数据操作和 UDF。我有一个样本 df 具有不同的测试分数。像这样的有 50 个不同的列。我正在尝试定义一个自定义应用函数来过滤大于 80 的值（每行中的总计数）。

考试分数

[65, 92, 96, 72, 70, 85, 72, 74, 79, 10, 82]

[59、81、91、69、66、75、65、61、71、85、69]

以下是我正在尝试的：

customfunc = udf(lambda val: (np.sum(val > 30)))

df2 = (df.withColumn('scores' ,customfunc('test_scores')))

收到以下错误：

TypeError: '>' not supported between instances of 'tuple' and 'str'

0 回答 0