每天,来自 oracle 的“用户”表都会被转储到 HDFS 中。转储仅包含上次转储后所做的最近更改(插入和更新)。现在我想使用 PIG 将所有每日转储加载到一个关系中,并使用“userid”字段将其与事务文件连接起来。问题在于更新的记录。同一个用户可以有多个记录。我只想在加入时使用最新的用户记录。我们应该怎么做。任何帮助表示赞赏。谢谢你。
问问题
448 次
每天,来自 oracle 的“用户”表都会被转储到 HDFS 中。转储仅包含上次转储后所做的最近更改(插入和更新)。现在我想使用 PIG 将所有每日转储加载到一个关系中,并使用“userid”字段将其与事务文件连接起来。问题在于更新的记录。同一个用户可以有多个记录。我只想在加入时使用最新的用户记录。我们应该怎么做。任何帮助表示赞赏。谢谢你。