非常了解使用 spark 进行数据操作和 UDF。我有一个样本 df 具有不同的测试分数。像这样的有 50 个不同的列。我正在尝试定义一个自定义应用函数来过滤大于 80 的值(每行中的总计数)。
考试分数
[65, 92, 96, 72, 70, 85, 72, 74, 79, 10, 82]
[59、81、91、69、66、75、65、61、71、85、69]
以下是我正在尝试的:
customfunc = udf(lambda val: (np.sum(val > 30)))
df2 = (df.withColumn('scores' ,customfunc('test_scores')))
收到以下错误:
TypeError: '>' not supported between instances of 'tuple' and 'str'