我正在通过大约 20 个 ID 的列表过滤表。现在我的代码如下所示:
A = LOAD 'ids.txt' USING PigStorage();
B = LOAD 'massive_table' USING PigStorage();
C = JOIN A BY $0, B BY $0;
D = FOREACH C GENERATE $1, $2, $3, $4, ...
STORE D INTO 'foo' USING PigStorage();
我不喜欢的是 D 行,我必须重新生成一个新表以通过显式声明我想要呈现的每个其他列(有时是很多列)来摆脱连接列。我想知道是否有相当于:
FILTER B BY $0 IN (A)
或者:
DROP $0 FROM C