在处理 Pig 时,我正在 grunt shell 中工作。
我有A
桌子colA
。
我想对表进行分组A
并将colA
其存储在文件grACount
中,过滤结果grACount
并将过滤结果存储在一个名为grACountFilter
.
如果我在 grunt shell 中编写如下语句:
grA = GROUP A BY colA;
grACount = FOREACH grA GENERATE group as colA, COUNT(A.colA) as countColA;
STORE grACount into 'grACount';
grACountFilter = FILTER grACount BY countColA>15;
STORE grACountFilter into 'grACountFilter';
然后它将为第 3 行提交地图缩减作业,然后再次为第 5 行提交地图缩减作业,对吗?
而且,当它再次为第 5 行提交作业时,它会重新计算表,对吗?
我想要的是不必提交两个不同的 map reduce 作业并一次性执行所有计算。这可能吗?