3

在 RI 中创建了两个数据集,我通过以下方式将它们保存为 csv 文件

liste <-write.csv(liste, file="/home/.../liste.csv", row.names=FALSE)
    data <- write.csv(data, file="/home/.../data.csv", row.names=FALSE)

我现在想在 SparkR 中打开这些 csv 文件。所以我输入

liste <- read.df(sqlContext, "/home/.../liste.csv", "com.databricks.spark.csv", header="true", delimiter= "\t")

data <- read.df(sqlContext, "/home/.../data.csv", "com.databricks.spark.csv", header="true", delimiter= "\t")

事实证明,在 SparkR 中成功加载了一个数据集“liste”,但是,由于某些奇怪的原因,无法加载“data”。

'liste' 只是 R 中的数字向量,而 'data' 是我在 R 中加载并删除了 data.frame 的某些部分的 data.frame。SparkR 给了我这个错误信息:

错误:returnStatus == 0 不是 TRUE

4

1 回答 1

2

Liste 是一个本地列表,可以用 write.csv 写入,data 是一个 SparkR DataFrame,不能用 write.csv 写入:它只写入其指针,而不写入 DataFrame。这就是为什么它只有 33 kb

于 2015-08-10T08:41:12.500 回答