我发现我在猪身上想要的一个共同点是我将与数据建立一个小的关系,比如
A = id, attribute1:int, attribute2:double...
和数据有很大的关系,比如
B = id, differentattribute:chararray...
我想过滤 B 以便所有元组都有一个包含在 A 中的 id。我知道我可以做到,
C = JOIN A by id, B by id;
D = FOREACH C GENERATE B::id, B::differentattribute;
但这似乎非常低效。使用带有 PIG FILTER的 IN 原因声称没有 IN 子句......如果没有,是否有更有效的方法来使用 UDF 模拟 IN?