我在数据库中有一些数据,我想在 Spark 中使用sparklyr使用它。
我可以使用基于DBI的包将数据库中的数据导入 R
dbconn <- dbConnect(<some connection args>)
data_in_r <- dbReadTable(dbconn, "a table")
然后使用将数据从 R 复制到 Spark
sconn <- spark_connect(<some connection args>)
data_ptr <- copy_to(sconn, data_in_r)
对于大数据集,复制两次很慢。
如何将数据直接从数据库复制到 Spark?
sparklyr有几个spark_read_*()
导入功能,但与数据库无关。 sdf_import()
看起来有可能,但目前尚不清楚如何在这种情况下使用它。