rdd.map 给出: TypeError: unsupported operand type(s) for -: 'Row' and 'float'
我使用以下数据框创建了一个 rdd:
temprdd = df.select('results').rdd
然后我想对其中的所有对象进行计算(基本上在我现在认为是它自己的 rdd 的“结果”列中):
sqrt(temprdd.map(lambda x : pow(x-mean,2)).sum())
但我得到:
文件“/usr/local/src/spark20master/spark/python/pyspark/rdd.py”,第 999 行,返回 self.mapPartitions(lambda x: [sum(x)]).fold(0, operator.add)文件“”,第 7 行,类型错误:不支持的操作数类型 -: 'Row' 和 'float'
我的意思是浮动。我期望 x 的值是浮点数;但我猜是读作 Row 。哦,我做错了什么?谢谢。