0

非常了解使用 spark 进行数据操作和 UDF。我有一个样本 df 具有不同的测试分数。像这样的有 50 个不同的列。我正在尝试定义一个自定义应用函数来过滤大于 80 的值(每行中的总计数)。

考试分数

[65, 92, 96, 72, 70, 85, 72, 74, 79, 10, 82]

[59、81、91、69、66、75、65、61、71、85、69]

以下是我正在尝试的:

customfunc = udf(lambda val: (np.sum(val > 30)))

df2 = (df.withColumn('scores' ,customfunc('test_scores')))

收到以下错误:

TypeError: '>' not supported between instances of 'tuple' and 'str'
4

0 回答 0