我使用 python 中的什么函数从 spark 数据帧.map()
创建一组?labeledPoints
如果标签/结果不是第一列但我可以参考其列名“状态”,则表示法是什么?
我用这个 .map() 函数创建了 Python 数据框:
def parsePoint(line):
listmp = list(line.split('\t'))
dataframe = pd.DataFrame(pd.get_dummies(listmp[1:]).sum()).transpose()
dataframe.insert(0, 'status', dataframe['accepted'])
if 'NULL' in dataframe.columns:
dataframe = dataframe.drop('NULL', axis=1)
if '' in dataframe.columns:
dataframe = dataframe.drop('', axis=1)
if 'rejected' in dataframe.columns:
dataframe = dataframe.drop('rejected', axis=1)
if 'accepted' in dataframe.columns:
dataframe = dataframe.drop('accepted', axis=1)
return dataframe
在 reduce 函数重新组合所有 Pandas 数据帧后,我将其转换为 Spark 数据帧。
parsedData=sqlContext.createDataFrame(parsedData)
但是现在我如何labledPoints
在 Python 中创建它?我认为它可能是另一个.map()
功能?