hadoop - HADOOP PIG - 使用 PIG 获取记录子集的最大值和最小值

Question

我正在导入一个 CSV 文件，其中包含类似于下面的一些数据

----------
ID | VALUE
----------
1  |   1
2  |   1
3  |   1
1  |   2
2  |   2
3  |   2
1  |   3
2  |   3
3  |   3

我想要做的是获取每个 id 的最大值和最小值。输出将类似于

--------------
ID | MAX | MIN
--------------
1  |  3  |  1
2  |  3  |  1
3  |  3  |  1

我可以使用类似于下面的代码获取值列的最大值和最小值

MAX_MIN_VALUE = LOAD 'SampleData.csv'  AS (id:chararray, value:int);
MAX_MIN_VALUE_GROUP = GROUP MAX_MIN_VALUE ALL;
WITH_MAX_MIN = FOREACH MAX_MIN_VALUE_GROUP 
       GENERATE
           FLATTEN(MAX_MIN_VALUE.(id)), MAX(MAX_MIN_VALUE.value), MIN(MAX_MIN_VALUE.value);

我正在努力解决的是如何过滤数据，以便我可以获得每个 id 的最大值和最小值。在 SQL 中，我会进行自联接，但在 PIG 中想不出等效的方法。

谁能指出我在 PIG 中解决这个问题的好方法？

提前感谢您的任何想法，非常感谢！真皮

score 2 · Accepted Answer

2

你需要GROUP BY id代替GROUP ALL.

于 2012-11-22T09:47:52.697 回答

hadoop - HADOOP PIG - 使用 PIG 获取记录子集的最大值和最小值

1 回答 1

Related

Reference