0

我有这个 Spark 表:

xydata
y: num 11.00 22.00 33.00 ...
x0: num 1.00 2.00 3.00 ...
x1: num 2.00 3.00 4.00 ...
...
x788: num 2.00 3.00 4.00 ...

R环境中的这个数据框:

penalty
p: num 1.23 2.34 3.45 ...

表和数据框中的行数相同。

我想用in减去y值,就像.xydatappenaltyy = y - p

有没有办法做到这一点?我知道我可以使用mutateto update y,只能在同一张表中使用。

我正在考虑将这两个表合并到一个新的 Spark 表中:

xydata_new
y: num 11.00 22.00 33.00 ...
x0: num 1.00 2.00 3.00 ...
x1: num 2.00 3.00 4.00 ...
...
x788: num 2.00 3.00 4.00 ...
p: num 1.23 2.34 3.45 ...

这样我就可以使用mutate(y = y - p),但我又找不到合并两个表的好方法。我试图dplyr::combine我的另一个问题中使用,但结果并不令人满意。

数据量很大,它可以达到 40GB,将来可能会更多,因此 -collect将所有表放入 R 环境中,然后在 R 中进行操作(cbind然后导出为 Spark 表tbl)不是一种选择。

4

0 回答 0