0

概述:
Azure HDInsight
群集类型:ML Services (R Server)
版本:R Server 9.1 (HDI 3.6)

我正在尝试将 csv 文件从 Azure 数据存储 blob 导入 R 服务器环境。但这显然不像我想象的那么容易,或者不像本地那么容易。

我尝试的第一件事是安装sparklyr软件包并设置连接。

#install.packages("devtools")
#devtools::install_github("rstudio/sparklyr")
install.packages("sparklyr")
library(sparklyr)
sc <- spark_connect(master = "yarn")

但由于 HDI 中安装了旧版本,出​​现错误消息。

Error in start_shell(master = master, spark_home = spark_home, spark_version = version,  : 
  sparklyr does not currently support Spark version: 2.1.1.2.6.2.38

然后我尝试使用rxSparkConnect但也没有工作。

#Sys.setenv(SPARK_HOME_VERSION="2.1.1.2.6.2.38-1")

cc <- rxSparkConnect(interop = "sparklyr")
sc <- rxGetSparklyrConnection(cc)

orgins <- file.path("wasb://STORAGENAME@CLUSTERNAME.blob.core.windows.net","FILENAME.csv")
spark_read_csv(sc,path = origins, name = "df")

您如何将 csv 文件从 azure 存储 blob 读取到 r 服务器环境中?
我对自己有点不高兴,这花了这么长时间,而且不应该这么复杂,请帮助我!提前致谢!
相关职位 1 相关职位 2

4

1 回答 1

0

我发现一个不完美的解决方法是在右下角的“本地”环境中上传数据,然后从那里简单地读取 csv 文件。
在此处输入图像描述

必须有更好的方法来做到这一点,因为它需要大量的手动工作,如果数据量很大并且浪费存储 blob,则可能不切实际。

于 2019-08-14T18:35:33.580 回答