在猪身上,我有两个袋子。包 A 的大小约为 200 GB,包 B 的大小约为 600 GB。它们具有相同的架构。如何从包 A 中删除包 B 中包含的所有元组?我查看了 Pig 的 DIFF udf,但将两个包同时放入内存中似乎并不实际。
问问题
384 次
在猪身上,我有两个袋子。包 A 的大小约为 200 GB,包 B 的大小约为 600 GB。它们具有相同的架构。如何从包 A 中删除包 B 中包含的所有元组?我查看了 Pig 的 DIFF udf,但将两个包同时放入内存中似乎并不实际。