我对 SPARKR 比较陌生。我下载了 SPARK 1.4 并设置 RStudio 以使用 SPARKR 库。但是我想知道如何将函数应用于分布式 DataFrame 的列中的每个值,有人可以帮忙吗?例如,
这完美地工作
myFunc <- function(x) { paste(x , "_hello")}
c <- c("a", "b", "c")
d <- lapply(c, myFunc)
如何使其适用于分布式 DataFrame。目的是将“_hello”附加到DF的列名称的每个值
DF <- read.df(sqlContext, "TV_Flattened_2.csv", source = "com.databricks.spark.csv", header="true")
SparkR:::lapply(DF$Name, myFunc)
在 SPARK 1.4 发布之前的 alpha 版本的 SPARKR 中似乎已经有了这个能力,为什么现在在 SPARK 1.4 正式版本中缺少这个能力?