apache-pig - 异常长的 Pig 作业开始时间

Question

在工作开始之前，一个猪脚本（并不比我构建的任何其他脚本特别复杂）似乎循环了很长时间：

2013-10-08 10:46:07,655 [main] INFO  org.apache.hadoop.mapreduce.lib.input.FileInputFormat - Total input paths to process : 10
2013-10-08 10:46:07,659 [main] INFO  org.apache.pig.backend.hadoop.executionengine.util.MapRedUtil - Total input paths to process : 10
2013-10-08 10:46:09,168 [main] INFO  org.apache.hadoop.mapreduce.lib.input.FileInputFormat - Total input paths to process : 10
2013-10-08 10:46:09,168 [main] INFO  org.apache.pig.backend.hadoop.executionengine.util.MapRedUtil - Total input paths to process : 10
2013-10-08 10:46:11,381 [main] INFO  org.apache.hadoop.mapreduce.lib.input.FileInputFormat - Total input paths to process : 10
2013-10-08 10:46:11,381 [main] INFO  org.apache.pig.backend.hadoop.executionengine.util.MapRedUtil - Total input paths to process : 10
2013-10-08 10:46:13,875 [main] INFO  org.apache.hadoop.mapreduce.lib.input.FileInputFormat - Total input paths to process : 10
2013-10-08 10:46:13,875 [main] INFO  org.apache.pig.backend.hadoop.executionengine.util.MapRedUtil - Total input paths to process : 10
2013-10-08 10:46:16,303 [main] INFO  org.apache.hadoop.mapreduce.lib.input.FileInputFormat - Total input paths to process : 10

当通常此步骤在几秒钟内完成时，它会重复上述大约 4 分钟。我无法确定原因 - 除了删除部分脚本，但问题似乎不是由脚本的任何特定部分引起的。我有其他脚本和这个一样复杂，我没有遇到过这个问题。什么可能导致问题？

score 1 · Accepted Answer

如果没有更多信息，我不能肯定地说，但似乎 pig 正在等待您的集群的 JobTracker 开始运行由您的脚本生成的底层 Map/Reduce 作业。发生这种情况的原因有很多，例如在资源不足的共享集群上运行。您很可能必须查看集群的 JobTracker 和/或 TaskTracker 才能了解确切原因。

apache-pig - 异常长的 Pig 作业开始时间

1 回答 1

Related

Reference