3

如何在 Spark 1.4 的 SparkR 中绑定两列数据框

TIA,阿伦

4

1 回答 1

5

没有办法做到这一点。这是scala中有关火花(1.3)的问题。能够做到这一点的唯一方法是拥有某种 row.numbering,因为这样你就可以加入 row.number。为什么?因为您只能连接表或基于其他已经存在的列添加列

data1 <- createDataFrame(sqlContext, data.frame(a=c(1,2,3)))
data2 <- createDataFrame(sqlContext, data.frame(b=c(2,3,4)))

然后

withColumn(data1,"b",data1$a + 1)

是允许的,但是

withColumn(data1,"b",data2$b)

不是。从 Spark 将你的 DataFrame 分割成块来存储它的那一刻起,它不知道如何绑定它们(它不知道行排序),只有当你有 row.numbers 时。

于 2015-07-23T14:04:52.617 回答