我有一个如下所示的数据框
from pyspark import SparkContext, SparkConf,SQLContext
import numpy as np
config = SparkConf("local")
sc = SparkContext(conf=config)
sqlContext=SQLContext(sc)
df = sqlContext.createDataFrame([("doc_3",1,3,9), ("doc_1",9,6,0), ("doc_2",9,9,3) ]).withColumnRenamed("_1","doc").withColumnRenamed("_2","word1").withColumnRenamed("_3","word2").withColumnRenamed("_4","word3")
现在我需要将第一列和其余列保留为 numpy 数组(两列:“doc”和一个 numpy 数组列)
我知道
sdf=np.array(df.select([c for c in df.columns if c not in {'doc'}]).collect())
print sdf
将所有列转换为 numpy 数组,但如何将 numpy 数组附加到第一列?任何帮助表示赞赏。