key - Pig - 键的多个值

Question

我编写了一个 Pig 脚本，它将通过 Python UDF 执行一些图像处理。

做了一些操作后，我有类似的东西（例如）：

A = load 'data.txt' using PigStorage('|') as (name:chararray, pixelIntensity:float);

B = group A by pixelIntensity;

dump B;

B 是这样的：

(131.0,{(image1,jpg,131.0), (image2.jpg,131.0), (image3.jpg,131.0)})
(140.0,{(image5.jpg,140.0), (image5.jpg,140.0)})
(150.0,{(image4.jpg,150.0})

如果我要去

dump A;

我会得到以下信息：

(image1.jpg,131.0)
(image2.jpg,131.0)
(image3.jpg,131.0)
(image4.jpg,150.0)
(image5.jpg,140.0)

所以我基本上使用它们的平均像素强度作为关键对它们进行了分组。

我的问题是这样的：

我只能从 B 中的每一行中提取 1 个元素吗？例如，我会喜欢

(image1.jpg,131.0)
(image4.jpg,150.0)
...

score 0 · Accepted Answer

嵌套FOREACH的 aLIMIT应该做你想做的事：

A = LOAD 'data' using PigStorage(',') AS (name:chararray,pixelIntensity:float);
B = GROUP A BY pixelIntensity;
C = FOREACH B {
    D = LIMIT A 1;
    GENERATE flatten(D);
};
STORE C INTO 'res';

key - Pig - 键的多个值

1 回答 1

Related

Reference