45

我想用 R 编程语言处理Apache Parquet文件(在我的例子中,在 Spark 中生成)。

有 R 阅读器吗?或者正在做一个工作?

如果没有,到达那里最方便的方法是什么?注意:有 Java 和 C++ 绑定:https ://github.com/apache/parquet-mr

4

9 回答 9

28

如果您使用的是 Spark,那么随着 Spark 1.4 的发布,这现在相对简单,请参阅下面的示例代码,该代码使用现在是 Apache Spark 核心框架的一部分的 SparkR 包。

# install the SparkR package
devtools::install_github('apache/spark', ref='master', subdir='R/pkg')

# load the SparkR package
library('SparkR')

# initialize sparkContext which starts a new Spark session
sc <- sparkR.init(master="local")

# initialize sqlContext
sq <- sparkRSQL.init(sc)

# load parquet file into a Spark data frame and coerce into R data frame
df <- collect(parquetFile(sq, "/path/to/filename"))

# terminate Spark session
sparkR.stop()

一个扩展的例子显示在@ https://gist.github.com/andyjudson/6aeff07bbe7e65edc665

如果您不使用 Spark,我不知道您可以使用任何其他软件包。

于 2015-06-26T18:43:49.370 回答
25

您可以为此使用该arrow软件包。它与 Python 中的相同,pyarrow但现在它也为 R 打包,而不需要 Python。

git clone https://github.com/apache/arrow.git
cd arrow/cpp && mkdir release && cd release

# It is important to statically link to boost libraries
cmake .. -DARROW_PARQUET=ON -DCMAKE_BUILD_TYPE=Release -DARROW_BOOST_USE_SHARED:BOOL=Off
make install

然后你可以安装 Rarrow包:

devtools::install_github("apache/arrow/r")

并使用它来加载 Parquet 文件

library(arrow)
#> 
#> Attaching package: 'arrow'
#> The following object is masked from 'package:utils':
#> 
#>     timestamp
#> The following objects are masked from 'package:base':
#> 
#>     array, table
read_parquet("somefile.parquet", as_tibble = TRUE)
#> # A tibble: 10 x 2
#>        x       y
#>    <int>   <dbl>
#> …
于 2019-03-14T14:38:44.197 回答
17

您可以简单地使用箭头包

install.packages("arrow")
library(arrow)
read_parquet("myfile.parquet")
于 2019-08-09T06:12:56.040 回答
14

或者SparkR,您现在可以使用sparklyr

# install.packages("sparklyr")
library(sparklyr)

sc <- spark_connect(master = "local")

spark_tbl_handle <- spark_read_parquet(sc, "tbl_name_in_spark", "/path/to/parquetdir")

regular_df <- collect(spark_tbl_handle)

spark_disconnect(sc)
于 2017-11-09T15:49:10.520 回答
6

使用 reticulate,您可以使用从 python 到 parquet 文件的 pandas。这可以为您省去运行 spark 实例的麻烦。

library(reticulate)
library(dplyr)
pandas <- import("pandas")
read_parquet <- function(path, columns = NULL) {

  path <- path.expand(path)
  path <- normalizePath(path)

  if (!is.null(columns)) columns = as.list(columns)

  xdf <- pandas$read_parquet(path, columns = columns)

  xdf <- as.data.frame(xdf, stringsAsFactors = FALSE)

  dplyr::tbl_df(xdf)

}

read_parquet(PATH_TO_PARQUET_FILE)
于 2019-02-20T17:39:28.020 回答
4

Spark 已经更新,并且有许多新的东西和功能被弃用或重命名。

上面安迪的回答适用于 spark v.1.4,但在 spark v.2.3 上,这是对我有用的更新。

  1. 下载最新版本的 apache spark https://spark.apache.org/downloads.html(链接中的第 3 点)

  2. 提取.tgz文件。

  3. 安装devtool包在rstudio

    install.packages('devtools')
    
  4. 打开terminal并按照以下步骤操作

    # This is the folder of extracted spark `.tgz` of point 1 above
    export SPARK_HOME=extracted-spark-folder-path 
    cd $SPARK_HOME/R/lib/SparkR/
    R -e "devtools::install('.')"
    
  5. 返回rstudio

    # load the SparkR package
    library(SparkR)
    
    # initialize sparkSession which starts a new Spark session
    sc <- sparkR.session(master="local")
    
    # load parquet file into a Spark data frame and coerce into R data frame
    df <- collect(read.parquet('.parquet-file-path'))
    
    # terminate Spark session
    sparkR.stop()
    
于 2018-06-22T10:13:27.433 回答
3

miniparquet是一个新的专用包。安装:

devtools::install_github("hannesmuehleisen/miniparquet")

取自文档的示例:

library(miniparquet)

f <- system.file("extdata/userdata1.parquet", package="miniparquet")
df <- parquet_read(f)
str(df)

# 'data.frame': 1000 obs. of  13 variables:
#  $ registration_dttm: POSIXct, format: "2016-02-03 07:55:29" "2016-02-03 17:04:03" "2016-02-03 01:09:31" ...
#  $ id               : int  1 2 3 4 5 6 7 8 9 10 ...
#  $ first_name       : chr  "Amanda" "Albert" "Evelyn" "Denise" ...
#  $ last_name        : chr  "Jordan" "Freeman" "Morgan" "Riley" ...
#  $ email            : chr  "ajordan0@com.com" "afreeman1@is.gd" "emorgan2@altervista.org" "driley3@gmpg.org" ...
#  $ gender           : chr  "Female" "Male" "Female" "Female" ...
#  $ ip_address       : chr  "1.197.201.2" "218.111.175.34" "7.161.136.94" "140.35.109.83" ...
#  $ cc               : chr  "6759521864920116" "" "6767119071901597" "3576031598965625" ...
#  $ country          : chr  "Indonesia" "Canada" "Russia" "China" ...
#  $ birthdate        : chr  "3/8/1971" "1/16/1968" "2/1/1960" "4/8/1997" ...
#  $ salary           : num  49757 150280 144973 90263 NA ...
#  $ title            : chr  "Internal Auditor" "Accountant IV" "Structural Engineer" "Senior Cost Accountant" ...
#  $ comments         : chr  "1E+02" "" "" "" ...
于 2019-10-03T11:27:22.907 回答
1

要读取 Amazon S3 存储桶中的 parquet 文件,请尝试使用 s3a 而不是 s3n。在使用 EMR 1.4.0、RStudio 和 Spark 1.5.0 读取镶木地板文件时,这对我有用。

于 2016-04-19T13:26:37.963 回答
1

如果您有一个多文件 parquet 文件,您可能需要执行以下操作:

data.table::rbindlist(lapply(Sys.glob("path_to_parquet/part-*.parquet"), arrow::read_parquet))
于 2020-10-26T13:39:31.420 回答