铅:
a) 将本地文件读入 Panda 数据帧,例如 PD_DF b) 操作/Massge PD_DF 并将列添加到数据帧 c) 需要使用 spark 将 PD_DF 写入 HDFS。我该怎么做 ?
铅:
a) 将本地文件读入 Panda 数据帧,例如 PD_DF b) 操作/Massge PD_DF 并将列添加到数据帧 c) 需要使用 spark 将 PD_DF 写入 HDFS。我该怎么做 ?
您可以使用该SQLContext
对象来调用该createDataFrame
方法,该方法接受一个data
可以选择是 PandasDataFrame
对象的输入。
假设dataframe
是 pandas.core.frame.DataFrame 类型,然后在 spark 2.1 - Pyspark 我做到了
rdd_data = spark.createDataFrame(dataframe)\
.rdd
如果您想重命名任何列或仅选择几列,请在使用.rdd
希望它也对你有用。
我使用 Spark 1.6.0。首先将 pandas 数据帧转换为 spark 数据帧,然后 spark 数据帧 spark rdd
sparkDF = sqlContext.createDataFrame(pandasDF)
sparkRDD = sparkDF.rdd.map(list)
type(sparkRDD)
pyspark.rdd.PipelinedRDD