5

如果我连接到 Spark 集群,将一些数据复制到其中,然后断开连接,...

library(dplyr)
library(sparklyr)
sc <- spark_connect("local")
copy_to(sc, iris)
src_tbls(sc)
## [1] "iris"
spark_disconnect(sc)

然后下次我连接到 Spark 时,数据不存在。

sc <- spark_connect("local")
src_tbls(sc)
## character(0)
spark_disconnect(sc)

这与使用数据库的情况不同,无论连接多少次,数据都在那里。

如何在连接之间将数据持久保存在 Spark 集群中?

我想sdf_persist()可能是我想要的,但似乎不是。

4

1 回答 1

1

Spark 在技术上是一种在计算机/集群上运行以执行任务的引擎。它不是数据库或文件系统。您可以在完成后将数据保存到文件系统并在下一次会话期间加载它。

https://en.wikipedia.org/wiki/Apache_Spark

于 2017-04-27T13:56:12.093 回答