r - 无法使用 spark_read_csv() 将 csv 读入 Spark

Question

我正在尝试使用sparklyr将 csv 文件读入 R。我可以使用 .csv 将 .csv 读入 R 中read.csv()，但是当我尝试使用spark_read_csv()它时它会崩溃。

accidents <- spark_read_csv(sc, name = 'accidents', path = '/home/rstudio/R/Shiny/accident_all.csv')

但是，当我尝试执行此代码时，我收到以下错误：

as.hexmode(xx) 中的错误：不能将“x”强制转换为“hexmode”类

通过谷歌搜索该错误，我没有发现太多。任何人都可以阐明这里发生的事情吗？

score 4 · Accepted Answer

是的，本地.csv文件可以使用spark_read_csv(). 我在 Documents 目录中有一个.csv文件，我已经使用以下代码片段阅读了它。我觉得没有必要使用file://前缀。以下是片段：

Sys.setenv(SPARK_HOME = "C:/Spark/spark-2.0.1-bin-hadoop2.7/")
library(SparkR, lib.loc = "C:/Spark/spark-2.0.1-bin-hadoop2.7/R/lib")
library(sparklyr)
library(dplyr)
library(data.table)
library(dtplyr)

sc <- spark_connect(master = "local", spark_home = "C:/Spark/spark-2.0.1-bin-hadoop2.7/", version = "2.0.1")

Credit_tbl <- spark_read_csv(sc, name = "credit_data", path = "C:/Users/USER_NAME/Documents/Credit.csv", header = TRUE, delimiter = ",")

您只需调用对象名称即可查看数据框Credit_tbl。

r - 无法使用 spark_read_csv() 将 csv 读入 Spark

1 回答 1

Related

Reference