我有羽毛格式文件sales.feather
,用于在python
和 R之间交换数据。
在 RI 中使用以下命令:
df = arrow::read_feather("sales.feather", as_data_frame=TRUE)
在python中,我使用了:
df = pandas.read_feather("sales.feather")
将数据从该文件加载到内存到运行的 Spark 实例的最佳方法是什么pyspark
?我还想控制pyspark.StorageLevel
从羽毛中读取的数据。
我不想使用 pandas 来加载数据,因为它会为我的 19GB 羽毛文件产生段错误,该文件是从 45GB csv 创建的。