0

在猪身上,我有两个袋子。包 A 的大小约为 200 GB,包 B 的大小约为 600 GB。它们具有相同的架构。如何从包 A 中删除包 B 中包含的所有元组?我查看了 Pig 的 DIFF udf,但将两个包同时放入内存中似乎并不实际。

4

1 回答 1

2

这是一个解决方案:

C = COGROUP A BY *, B BY *;
C_FILT = FILTER C BY NOT IsEmpty(A) AND IsEmpty(B);
OUT = FOREACH C_FILT GENERATE FLATTEN(A);
于 2013-08-18T19:34:34.323 回答