r - 如何通过 Spark 连接将数据从集群导入 R 环境？

翻译自：https://stackoverflow.com/questions/52135749 2018-09-02T09:43:46.527

73 次

我按照此链接与 Spark 和我的 R 服务器建立连接。

在 GCP 上连接 b/w R studio server pro 和 hive

我可以看到我的数据框，但无法将其调用到 R 环境中运行分析。谁能建议我正确的方法？

library(sparklyr)
library(dplyr)
sparklyr::spark_install()
#config
Sys.setenv(SPARK_HOME="/usr/lib/spark")
config <- spark_config()
#connect
sc <- spark_connect(master="yarn-client",config = config,version="2.2.1")

我可以看到我的表 "rdt" ，但是当我调用它时说找不到对象。

这就是我尝试过的：

  data <- rdt

这给出了这样的错误：错误：找不到对象'rdt'

那么唯一的方法是将文件直接放入集群并设置工作目录来调用它（然后达到目的..）我想调用它，我们通常如何导入 df，在这种情况下是从 sparklyr 连接

    setwd("~/Directory")
    data2 <- read.csv("rdt.csv",header = TRUE)
    str(data2)

r - 如何通过 Spark 连接将数据从集群导入 R 环境？

0 回答 0

Related

Reference