我们将 pig-0.11.0-cdh4.3.0 与 CDH4 集群一起使用,我们需要对一些 Web 日志进行重复数据删除。解决方案的想法(用 SQL 表示)是这样的:
SELECT
T1.browser,
T1.click_type,
T1.referrer,
T1.datetime,
T2.datetime
FROM
My_Table T1
INNER JOIN My_Table T2 ON
T2.browser = T1.browser AND
T2.click_type = T1.click_type AND
T2.referrrer = T1.referrer AND
T2.datetime > T1.datetime AND
T2.datetime <= DATEADD(mi, 1, T1.datetime)
我从这里抓取了上面的SQL 发现重复记录在 1 分钟内发生。我希望我可以在 Pig 中实现类似的解决方案,但我发现 Pig 显然不支持通过上述连接所需的表达式(仅按字段)连接。你知道如何用 Pig 去重复 1 分钟以内的事件吗?谢谢!