0

假设我的数据看起来像这样,列名为 food、action 和 population:

pizzas   eatenBy  humans
pizzas   eatenBy  collegeKids
pizzas   eatenBy  everyOne
pizzas   grownBy  farmers
sprouts  grownBy  sproutFarmers
sprouts  grownBy  humans

我如何编写一个 Pig Latin 脚本来仅生成一个独特的食物和动作,以及来自不同食物和动作组的任何有效人口?

即,我想从上述数据中得到的唯一输出是这个(尽管第一行和第三行的人口可能不同):

pizzas   eatenBy  everyOne
pizzas   grownBy  farmers
sprouts  grownBy  sproutFarmers

谢谢,

4

1 回答 1

1

不知道您将如何使用 DISTINCT 执行此操作(这比我将要建议的更有效),但您可以这样做:

food = load 'foodInput' AS (foodType,action,population);
foodGrouped = GROUP food by (foodType,action);
foodLimited = foreach foodGrouped {
    limited = LIMIT food 1;
    GENERATE FLATTEN(limited.(foodType,action,population));
};
于 2013-04-17T05:44:25.020 回答