我按照此链接与 Spark 和我的 R 服务器建立连接。
在 GCP 上连接 b/w R studio server pro 和 hive
我可以看到我的数据框,但无法将其调用到 R 环境中运行分析。谁能建议我正确的方法?
library(sparklyr)
library(dplyr)
sparklyr::spark_install()
#config
Sys.setenv(SPARK_HOME="/usr/lib/spark")
config <- spark_config()
#connect
sc <- spark_connect(master="yarn-client",config = config,version="2.2.1")
我可以看到我的表 "rdt" ,但是当我调用它时说找不到对象。
这就是我尝试过的:
data <- rdt
这给出了这样的错误:错误:找不到对象'rdt'
那么唯一的方法是将文件直接放入集群并设置工作目录来调用它(然后达到目的..)我想调用它,我们通常如何导入 df,在这种情况下是从 sparklyr 连接
setwd("~/Directory")
data2 <- read.csv("rdt.csv",header = TRUE)
str(data2)