概述:
Azure HDInsight
群集类型:ML Services (R Server)
版本:R Server 9.1 (HDI 3.6)
我正在尝试将 csv 文件从 Azure 数据存储 blob 导入 R 服务器环境。但这显然不像我想象的那么容易,或者不像本地那么容易。
我尝试的第一件事是安装sparklyr
软件包并设置连接。
#install.packages("devtools")
#devtools::install_github("rstudio/sparklyr")
install.packages("sparklyr")
library(sparklyr)
sc <- spark_connect(master = "yarn")
但由于 HDI 中安装了旧版本,出现错误消息。
Error in start_shell(master = master, spark_home = spark_home, spark_version = version, :
sparklyr does not currently support Spark version: 2.1.1.2.6.2.38
然后我尝试使用rxSparkConnect
但也没有工作。
#Sys.setenv(SPARK_HOME_VERSION="2.1.1.2.6.2.38-1")
cc <- rxSparkConnect(interop = "sparklyr")
sc <- rxGetSparklyrConnection(cc)
orgins <- file.path("wasb://STORAGENAME@CLUSTERNAME.blob.core.windows.net","FILENAME.csv")
spark_read_csv(sc,path = origins, name = "df")
您如何将 csv 文件从 azure 存储 blob 读取到 r 服务器环境中?
我对自己有点不高兴,这花了这么长时间,而且不应该这么复杂,请帮助我!提前致谢!
相关职位 1
相关职位 2