4

铅:

a) 将本地文件读入 Panda 数据帧,例如 PD_DF b) 操作/Massge PD_DF 并将列添加到数据帧 c) 需要使用 spark 将 PD_DF 写入 HDFS。我该怎么做 ?

4

3 回答 3

9

您可以使用该SQLContext对象来调用该createDataFrame方法,该方法接受一个data可以选择是 PandasDataFrame对象的输入。

于 2015-04-15T01:24:08.987 回答
3

假设dataframe是 pandas.core.frame.DataFrame 类型,然后在 spark 2.1 - Pyspark 我做到了

rdd_data = spark.createDataFrame(dataframe)\
                .rdd

如果您想重命名任何列或仅选择几列,请在使用.rdd

希望它也对你有用。

于 2017-03-22T11:52:15.047 回答
2

我使用 Spark 1.6.0。首先将 pandas 数据帧转换为 spark 数据帧,然后 spark 数据帧 spark rdd

sparkDF = sqlContext.createDataFrame(pandasDF)
sparkRDD = sparkDF.rdd.map(list)
type(sparkRDD)
pyspark.rdd.PipelinedRDD
于 2017-06-08T00:45:02.617 回答