hadoop - 在 PIg 中查找重复项

Question

如果我有一个 id 重复行的表，

我可以使用 Hive 和以下查询找到它

create table dupe as select * from table1 group by id having count(*) > 1;

我们可以使用 Pig 执行相同的功能吗？

如果是的话，有人可以帮我吗？

score 5 · Accepted Answer

以下代码可能会对您有所帮助：

r1 = load ...;
r2 = group r1 by id;
r3 = foreach r2 generate COUNT(r1) as c, r1;
r4 = filter r3 by c > 1;
r5 = foreach r4 generate FLATTEN(r1);
dump r5;

但是，订单不保留。

hadoop - 在 PIg 中查找重复项

1 回答 1

Related

Reference