9

我正在使用 PigLatin 过滤一些记录。

User1  8 NYC 
User1  9 NYC 
User1  7 LA 
User2  4 NYC
User2  3 DC 

该脚本应删除用户的重复项,并保留这些记录之一。类似于 linux 中的独特命令。

输出应该是:

User1 8 NYC 
User2 4 NYC

有什么建议么?

4

2 回答 2

20

对于您的特定示例 distinct 将无法正常工作,因为您的输出包含所有输入列($0, $1, $2),您只能对具有列($0, $2)or($0)和 loss的投影执行 distinct $1

为了为每个用户选择一个记录(任何记录),您可以使用 aGROUP BY和嵌套FOREACHwith LIMIT。前任:

inpt = load '......' ......;
user_grp = GROUP inpt BY $0;
filtered = FOREACH user_grp {
      top_rec = LIMIT inpt 1;
      GENERATE FLATTEN(top_rec);
};

这种方法将帮助您获得在字段子集上唯一的记录,并限制每个用户的输出记录数,您可以控制这一点。

于 2012-07-19T08:30:47.653 回答
0

Pig 提供 DISTINCT 命令来选择唯一数据。如果要在字段上使用 distinct 在 foreach 嵌套块中使用 Distinct。

于 2012-07-19T05:00:16.410 回答