我有这个 Spark 表:
xydata
y: num 11.00 22.00 33.00 ...
x0: num 1.00 2.00 3.00 ...
x1: num 2.00 3.00 4.00 ...
...
x788: num 2.00 3.00 4.00 ...
R环境中的这个数据框:
penalty
p: num 1.23 2.34 3.45 ...
表和数据框中的行数相同。
我想用in减去y
值,就像.xydata
p
penalty
y = y - p
有没有办法做到这一点?我知道我可以使用mutate
to update y
,只能在同一张表中使用。
我正在考虑将这两个表合并到一个新的 Spark 表中:
xydata_new
y: num 11.00 22.00 33.00 ...
x0: num 1.00 2.00 3.00 ...
x1: num 2.00 3.00 4.00 ...
...
x788: num 2.00 3.00 4.00 ...
p: num 1.23 2.34 3.45 ...
这样我就可以使用mutate(y = y - p)
,但我又找不到合并两个表的好方法。我试图dplyr::combine
在我的另一个问题中使用,但结果并不令人满意。
数据量很大,它可以达到 40GB,将来可能会更多,因此 -collect
将所有表放入 R 环境中,然后在 R 中进行操作(cbind
然后导出为 Spark 表tbl
)不是一种选择。