我有一些缓慢变化的元数据,它们实时存储在 HDFS 上。我想写一个猪作业,将这些行压缩到每个键的最新行。
例如,对于这些数据(为清楚起见添加了列标题):
ts meta key
-- ---- ---
1 foo id1
2 que id2
3 que id2
4 foo id1
5 pasa id2
6 pasa id2
7 foo id1
8 pasa id2
9 pasa id2
10 pasa id2
11 pasa id2
12 hombre id2
13 foo id1
14 foo id1
15 hombre id2
16 bar id1
17 bar id1
18 bar id1
19 bar id1
20 bar id1
我希望得到输出:
15 hombre id2
20 bar id1
我刚刚开始学习 Pig Latin 的来龙去脉——在 pig 或某个库中是否有内置的方法可以做到这一点,或者我应该看看写一个 UDF?