我正在运行一个简单的加载和计数功能,如下所示
my_src = LOAD '<>' using PigStorage('|') AS (
<< 方案定义>> );
my_count = FOREACH (GROUP my_src ALL) GENERATE COUNT(my_src); STORE my_count INTO 'file1';
我得到的答案是大约 2.79 亿行。
现在如果我运行 group my_grp = group my_src by (key1, key2, key3 , key4);
my_grp_cnt = FOREACH (GROUP my_grp ALL) 生成计数(my_grp);
STORE my_count INTO 'file2';
我得到的答案是大约 5.72 亿行。
我的期望是计数保持不变。我在这里缺少什么吗?
我在 CDH 5 上使用 PIG 0.12