我有一些计算值,我想将它们保存在 SparkR 中。
如果我将其保存为 csv 文件
write.csv(data, file="/.../data.csv", row.names=FALSE)
由于某种原因需要很长时间。有一个更好的方法吗 ?
您可以将 csv 文件保存在 /tmp/ 中以供临时使用。但是当集群重新启动时,该文件将被删除。将文件名指定为 file = "/tmp/filename.csv"
另一种选择,您可以注册您的表。见https://spark.apache.org/docs/latest/sparkr.html