10

我有羽毛格式文件sales.feather,用于在python和 R之间交换数据。

在 RI 中使用以下命令:

df = arrow::read_feather("sales.feather", as_data_frame=TRUE)

在python中,我使用了:

df = pandas.read_feather("sales.feather")

将数据从该文件加载到内存到运行的 Spark 实例的最佳方法是什么pyspark?我还想控制pyspark.StorageLevel从羽毛中读取的数据。

我不想使用 pandas 来加载数据,因为它会为我的 19GB 羽毛文件产生段错误,该文件是从 45GB csv 创建的。

4

3 回答 3

0

您可以将 pandas 数据帧转换为 Spark 数据帧,如下所示。

from pyspark.sql import SQLContext, Row
sqlContext = SQLContext(sc)
spark_df = sqlContext.createDataFrame(pandas_df)
于 2018-12-01T10:24:23.207 回答
-1

从 pyspark 导入 SparkContext

sc = SparkContext("local", "App Name")
sql = SQLContext(sc)

然后使用 createDataFrame 如下:

spark_df = sql.createDataFrame(pandas_df)
于 2018-12-21T08:31:01.430 回答
-1

也许您可以考虑改用镶木地板格式?看起来更适合您的用例,请参阅羽毛和镶木地板有什么区别?

于 2018-12-19T20:30:11.233 回答