我有一个过滤关键字列表(大约 1000 个),我需要使用这个列表过滤 pig 中的一个关系字段。
最初,我已经声明了这些关键字,例如: %declare p1 '。关键词 1。'; …………
% 声明 p1000 '。关键字 1000。';
然后我正在做过滤,如:
Filtered= FITLER SRC BY (not $0 匹配 '$p1') and (not $0 匹配 '$p2') and ...... (not $0 匹配 '$p1000');
DUMP 过滤;
假设我的源关系在 SRC 中,我需要对第一个字段应用过滤,即 $0。
如果我将过滤器的数量减少到 100-200,它工作正常。但是随着过滤器的数量增加到 1000。它不起作用。
有人可以建议一种解决方法来获得正确的结果吗?
提前致谢