如何使用箭头将分区镶木地板文件读入 R(没有任何火花)
情况
- 使用 Spark 管道创建镶木地板文件并保存在 S3 上
- 使用 RStudio/RShiny 读取一列作为索引以进行进一步分析
parquet 文件结构
从我的 Spark 创建的 parquet 文件由几个部分组成
tree component_mapping.parquet/
component_mapping.parquet/
├── _SUCCESS
├── part-00000-e30f9734-71b8-4367-99c4-65096143cc17-c000.snappy.parquet
├── part-00001-e30f9734-71b8-4367-99c4-65096143cc17-c000.snappy.parquet
├── part-00002-e30f9734-71b8-4367-99c4-65096143cc17-c000.snappy.parquet
├── part-00003-e30f9734-71b8-4367-99c4-65096143cc17-c000.snappy.parquet
├── part-00004-e30f9734-71b8-4367-99c4-65096143cc17-c000.snappy.parquet
├── etc
如何将此 component_mapping.parquet 读入 R?
我试过的
install.packages("arrow")
library(arrow)
my_df<-read_parquet("component_mapping.parquet")
但这失败并出现错误
IOError: Cannot open for reading: path 'component_mapping.parquet' is a directory
如果我只读取目录的一个文件,它就可以工作
install.packages("arrow")
library(arrow)
my_df<-read_parquet("component_mapping.parquet/part-00000-e30f9734-71b8-4367-99c4-65096143cc17-c000.snappy.parquet")
但我需要全部加载才能对其进行查询
我在文档中找到的
在 apache 箭头文档 https://arrow.apache.org/docs/r/reference/read_parquet.html和 https://arrow.apache.org/docs/r/reference/ParquetReaderProperties.html 我发现有一些read_parquet() 命令的属性,但我无法让它工作,也没有找到任何示例。
read_parquet(file, col_select = NULL, as_data_frame = TRUE, props = ParquetReaderProperties$create(), ...)
如何正确设置属性以读取完整目录?
# should be this methods
$read_dictionary(column_index)
or
$set_read_dictionary(column_index, read_dict)
帮助将不胜感激