0

我正在运行一个简单的加载和计数功能,如下所示

my_src = LOAD '<>' using PigStorage('|') AS (

<< 方案定义>> );

my_count = FOREACH (GROUP my_src ALL) GENERATE COUNT(my_src); STORE my_count INTO 'file1';

我得到的答案是大约 2.79 亿行。

现在如果我运行 group my_grp = group my_src by (key1, key2, key3 , key4);

my_grp_cnt = FOREACH (GROUP my_grp ALL) 生成计数(my_grp);

STORE my_count INTO 'file2';

我得到的答案是大约 5.72 亿行。

我的期望是计数保持不变。我在这里缺少什么吗?

我在 CDH 5 上使用 PIG 0.12

4

0 回答 0