Find centralized, trusted content and collaborate around the technologies you use most.
Teams
Q&A for work
Connect and share knowledge within a single location that is structured and easy to search.
我有一个A包含列表的表,该表B包含A. 应该如何获得一个C包含列表的表,该列表是Bin的补集A?
A
B
C
我知道如何在sql中做到这一点。我不确定如何在 Pig 中处理它。
谢谢。
用 PIG 的话来说,你有两个“包”A 和 B,其中 B 是 A 的子集。
如果 B 仅包含 A 中的值,则可以执行 C = DIFF(A,B)。但是,考虑到 DIFF 会删除重复项,因此您将 A 中 B 的补码减少为唯一值。
通常,DIFF 提供 A 中 B 的补码和 B 中 A 的补码的并集。