0

在我们的系统中,我们有多个针对特定 HDFS 目录运行的 pig 脚本。pig 脚本可以在不同的时间运行,并被安排定期运行。

有没有办法将猪脚本指向同一目录以进行多次执行,但要确保它只处理以前未见过的新文件?

我正在考虑为我的加载器使用自定义 PathFilter,但我想我会问是否已经有办法做到这一点,而不是我重新发明轮子(!)。

4

1 回答 1

0

您是否尝试在处理完成后将文件移动到已处理的目录。

于 2013-03-27T11:28:37.200 回答