在我们的系统中,我们有多个针对特定 HDFS 目录运行的 pig 脚本。pig 脚本可以在不同的时间运行,并被安排定期运行。
有没有办法将猪脚本指向同一目录以进行多次执行,但要确保它只处理以前未见过的新文件?
我正在考虑为我的加载器使用自定义 PathFilter,但我想我会问是否已经有办法做到这一点,而不是我重新发明轮子(!)。
在我们的系统中,我们有多个针对特定 HDFS 目录运行的 pig 脚本。pig 脚本可以在不同的时间运行,并被安排定期运行。
有没有办法将猪脚本指向同一目录以进行多次执行,但要确保它只处理以前未见过的新文件?
我正在考虑为我的加载器使用自定义 PathFilter,但我想我会问是否已经有办法做到这一点,而不是我重新发明轮子(!)。