pyspark - 我可以将熊猫数据框转换为 spark rdd 吗？

Question

铅：

a) 将本地文件读入 Panda 数据帧，例如 PD_DF b) 操作/Massge PD_DF 并将列添加到数据帧 c) 需要使用 spark 将 PD_DF 写入 HDFS。我该怎么做？

score 9 · Accepted Answer

您可以使用该SQLContext对象来调用该createDataFrame方法，该方法接受一个data可以选择是 PandasDataFrame对象的输入。

score 3 · Accepted Answer

假设dataframe是 pandas.core.frame.DataFrame 类型，然后在 spark 2.1 - Pyspark 我做到了

rdd_data = spark.createDataFrame(dataframe)\
                .rdd

如果您想重命名任何列或仅选择几列，请在使用.rdd

希望它也对你有用。

score 2 · Accepted Answer

我使用 Spark 1.6.0。首先将 pandas 数据帧转换为 spark 数据帧，然后 spark 数据帧 spark rdd

sparkDF = sqlContext.createDataFrame(pandasDF)
sparkRDD = sparkDF.rdd.map(list)
type(sparkRDD)
pyspark.rdd.PipelinedRDD

3 回答 3