我们遇到了 Pig 的多查询优化器无法按预期工作的问题。
据我了解,下面的脚本应该作为一个 MR 作业运行,但它在我们的集群上作为两个作业运行。我认为默认情况下应该启用多查询优化,我在这里遗漏了什么吗?如果我用“过滤器”语句替换组,那么它可以作为一个单一的 MR 作业。
data = LOAD 'input' AS (a:chararray, b:int, c:int);
A = GROUP data BY b;
B = GROUP data BY c;
STORE A INTO 'output1';
STORE B INTO 'output2';
我正在使用 CDH 打包猪 0.1.0 和 Hadoop 2.0.0。