我有以下输入:
input = LOAD '$in_data' USING PigStorage('\t', '-schmea') AS (
uid:chararray,
pid:int,
token:chararray
);
stpwrd = LOAD '$stpwrd' USING PigStorage('\t', '-schema') AS (
token:chararray
);
我的目标可以概括为以下伪代码:
output = FILTER input BY NOT IN(input.token, stpwrd);
, 理想情况下给出input
表中input.token
字段不在的行stpwrd
。
我在(链接)中检查了SetDifference()
UDF ,但我不确定这是否能完成这项工作,因为它似乎要求两个表都是单例的,而我的表有多个列。datafu
input