我正在使用 PigLatin 过滤一些记录。
User1 8 NYC
User1 9 NYC
User1 7 LA
User2 4 NYC
User2 3 DC
该脚本应删除用户的重复项,并保留这些记录之一。类似于 linux 中的独特命令。
输出应该是:
User1 8 NYC
User2 4 NYC
有什么建议么?
我正在使用 PigLatin 过滤一些记录。
User1 8 NYC
User1 9 NYC
User1 7 LA
User2 4 NYC
User2 3 DC
该脚本应删除用户的重复项,并保留这些记录之一。类似于 linux 中的独特命令。
输出应该是:
User1 8 NYC
User2 4 NYC
有什么建议么?
对于您的特定示例 distinct 将无法正常工作,因为您的输出包含所有输入列($0, $1, $2)
,您只能对具有列($0, $2)
or($0)
和 loss的投影执行 distinct $1
。
为了为每个用户选择一个记录(任何记录),您可以使用 aGROUP BY
和嵌套FOREACH
with LIMIT
。前任:
inpt = load '......' ......;
user_grp = GROUP inpt BY $0;
filtered = FOREACH user_grp {
top_rec = LIMIT inpt 1;
GENERATE FLATTEN(top_rec);
};
这种方法将帮助您获得在字段子集上唯一的记录,并限制每个用户的输出记录数,您可以控制这一点。
Pig 提供 DISTINCT 命令来选择唯一数据。如果要在字段上使用 distinct 在 foreach 嵌套块中使用 Distinct。