apache-spark - 如何本机读取羽毛/箭头文件？

Question

我有羽毛格式文件sales.feather，用于在python和 R之间交换数据。

在 RI 中使用以下命令：

df = arrow::read_feather("sales.feather", as_data_frame=TRUE)

在python中，我使用了：

df = pandas.read_feather("sales.feather")

将数据从该文件加载到内存到运行的 Spark 实例的最佳方法是什么pyspark？我还想控制pyspark.StorageLevel从羽毛中读取的数据。

我不想使用 pandas 来加载数据，因为它会为我的 19GB 羽毛文件产生段错误，该文件是从 45GB csv 创建的。

score 0 · Accepted Answer

您可以将 pandas 数据帧转换为 Spark 数据帧，如下所示。

from pyspark.sql import SQLContext, Row
sqlContext = SQLContext(sc)
spark_df = sqlContext.createDataFrame(pandas_df)

score -1 · Accepted Answer

从 pyspark 导入 SparkContext

sc = SparkContext("local", "App Name")
sql = SQLContext(sc)

然后使用 createDataFrame 如下：

spark_df = sql.createDataFrame(pandas_df)

score -1 · Accepted Answer

也许您可以考虑改用镶木地板格式？看起来更适合您的用例，请参阅羽毛和镶木地板有什么区别？

3 回答 3