0

我按照此链接与 Spark 和我的 R 服务器建立连接。

在 GCP 上连接 b/w R studio server pro 和 hive

我可以看到我的数据框,但无法将其调用到 R 环境中运行分析。谁能建议我正确的方法?

library(sparklyr)
library(dplyr)
sparklyr::spark_install()
#config
Sys.setenv(SPARK_HOME="/usr/lib/spark")
config <- spark_config()
#connect
sc <- spark_connect(master="yarn-client",config = config,version="2.2.1")

我可以看到我的表 "rdt" ,但是当我调用它时说找不到对象。

rdt 表

这就是我尝试过的:

  data <- rdt

这给出了这样的错误:错误:找不到对象'rdt'

那么唯一的方法是将文件直接放入集群并设置工作目录来调用它(然后达到目的..)我想调用它,我们通常如何导入 df,在这种情况下是从 sparklyr 连接

    setwd("~/Directory")
    data2 <- read.csv("rdt.csv",header = TRUE)
    str(data2)
4

0 回答 0