我们的工作流程使用 AWS elastic map reduce 集群来运行一系列 Pig 作业,以将大量数据处理成聚合报告。不幸的是,输入数据可能不一致,并且可能导致没有输入文件或 0 字节文件被提供给管道,甚至由管道的某些阶段生成。
在 LOAD 语句期间,如果 Pig 没有找到任何输入文件或任何输入文件为 0 字节,它就会失败。
有什么好的方法可以解决这个问题(希望在 Pig 配置或脚本或 Hadoop 集群配置中,无需编写自定义加载器......)?
(因为我们使用的是 AWS elastic map reduce,所以我们只能使用 Pig 0.6.0 和 Hadoop 0.20。)