r - spark-csv 与 SparkR 和 RStudio 分崩离析

Question

我已经尝试了如何在 RStudio 上将 csv 文件加载到 SparkR 中的建议的几种排列？但我只能让 Spark 解决方案的内存工作：

Sys.setenv(SPARK_HOME='C:/Users/myuser/apache/spark-1.6.1-bin-hadoop2.6')
.libPaths(c(file.path(Sys.getenv("SPARK_HOME"),"R","lib"),.libPaths()))

library(SparkR)
sparkR.stop()
sc=sparkR.init(master="local")
sqlContext=sparkRSQL.init(sc)

df=read.csv(file="C:/.../file.csv",     
            header=T,sep=",",na.strings = c('NULL',''),fileEncoding = "UTF-8-BOM",stringsAsFactors = F)

df<- createDataFrame(sqlContext, df)
df=dropna(df)
names(df)
summary(df)

上面的问题是，如果 file.csv 太大而无法放入内存，则会导致问题。（一个 hack 是加载一系列 csv 文件并在 sparkR 中 rbind。）通过read.df读取 CSV 文件是首选。

如果我将 init 更改为：

sc <- sparkR.init(master='local', sparkPackages="com.databricks:spark-csv_2.11:1.2.0")

正如为了使用read.df所建议的那样，无论我做什么 sparkR 现在都被冲洗掉了。

df <- read.df(sqlContext, "C:/file.csv",          source="com.databricks.spark.csv", header="true", inferSchema="true")

甚至

df<- createDataFrame(sqlContext, df)

呕吐物：

Error in invokeJava(isStatic = FALSE, objId$id, methodName, ...) : 
  org.apache.spark.SparkException: Job aborted due to stage failure: Task 0 in stage 1.0 failed 1 times, most recent failure: Lost task 0.0 in stage 1.0 (TID 1, localhost): java.lang.NullPointerException
    at java.lang.ProcessBuilder.start(Unknown Source)
    at org.apache.hadoop.util.Shell.runCommand(Shell.java:482)
    at org.apache.hadoop.util.Shell.run(Shell.java:455)
    at org.apache.hadoop.util.Shell$ShellCommandExecutor.execute(Shell.java:715)
    at org.apache.hadoop.fs.FileUtil.chmod(FileUtil.java:873)
    at org.apache.hadoop.fs.FileUtil.chmod(FileUtil.java:853)
    at org.apache.spark.util.Utils$.fetchFile(Utils.scala:406)
    at org.apache.spark.executor.Executor$$anonfun$org$apache$spark$executor$Executor$$updateDependencies$5.apply(Executor.scala:405)
    at org.apache.spark.executor.Executor$$anonfun$org$apache$spark$executor$Executor$$updateDependencies$5.apply(Executor.scala:397)
    at scala.collection.TraversableLike$WithFilter$$anonfun$foreach$1.apply(TraversableLike.scala:7

SparkR 缺少什么精灵粉？

是否有更简单的方法来指定或确认正确的数据块设置2.11:1.2.0？

有没有办法加载制表符分隔的文件或其他不需要数据块的格式？

PS 我注意到 H2O 与 R 集成起来更加愉快，并且不需要奥术咒语。sparkR 的人真的需要让启动 sparkR 成为 1 班轮恕我直言......

score 2 · Accepted Answer

以下对我来说完美无缺：

Sys.setenv(SPARKR_SUBMIT_ARGS='"--packages" "com.databricks:spark-csv_2.11:1.4.0" "sparkr-shell"')
Sys.setenv(SPARK_HOME='/path/to/spark')
.libPaths(c(file.path(Sys.getenv("SPARK_HOME"), "R", "lib"), .libPaths()))

library(SparkR)

sparkR.stop()

sc <- sparkR.init(master="local")
sqlContext <- sparkRSQL.init(sc)

df <- read.df(sqlContext, 
              "/path/to/mtcars.csv", 
              source="com.databricks.spark.csv", 
              inferSchema="true")

我将spark-csv_2.11-1.4.0.jar（最新的 jar）放入spark/jars目录中，适当地修改了 env var，然后完成其余的工作。collect(df)表明它有效。

score 0 · Accepted Answer

预构建的 Spark 1.x 发行版是使用 Scala 2.10 构建的，而不是 2.11。因此，如果您使用这样的发行版（您似乎这样做了），您还需要一个适用于 Scala 2.10 的 spark-csv 构建，而不是适用于 Scala 2.11（就像您在代码中使用的那样）。更改spark-csv_2.11为spark-csv_2.10，它应该可以正常工作（另请参阅此处和此处接受的 SO 答案）。

r - spark-csv 与 SparkR 和 RStudio 分崩离析

2 回答 2

Related

Reference