如何在 Spark 1.4 的 SparkR 中绑定两列数据框
TIA,阿伦
没有办法做到这一点。这是scala中有关火花(1.3)的问题。能够做到这一点的唯一方法是拥有某种 row.numbering,因为这样你就可以加入 row.number。为什么?因为您只能连接表或基于其他已经存在的列添加列
data1 <- createDataFrame(sqlContext, data.frame(a=c(1,2,3)))
data2 <- createDataFrame(sqlContext, data.frame(b=c(2,3,4)))
然后
withColumn(data1,"b",data1$a + 1)
是允许的,但是
withColumn(data1,"b",data2$b)
不是。从 Spark 将你的 DataFrame 分割成块来存储它的那一刻起,它不知道如何绑定它们(它不知道行排序),只有当你有 row.numbers 时。