0

在工作开始之前,一个猪脚本(并不比我构建的任何其他脚本特别复杂)似乎循环了很长时间:

2013-10-08 10:46:07,655 [main] INFO  org.apache.hadoop.mapreduce.lib.input.FileInputFormat - Total input paths to process : 10
2013-10-08 10:46:07,659 [main] INFO  org.apache.pig.backend.hadoop.executionengine.util.MapRedUtil - Total input paths to process : 10
2013-10-08 10:46:09,168 [main] INFO  org.apache.hadoop.mapreduce.lib.input.FileInputFormat - Total input paths to process : 10
2013-10-08 10:46:09,168 [main] INFO  org.apache.pig.backend.hadoop.executionengine.util.MapRedUtil - Total input paths to process : 10
2013-10-08 10:46:11,381 [main] INFO  org.apache.hadoop.mapreduce.lib.input.FileInputFormat - Total input paths to process : 10
2013-10-08 10:46:11,381 [main] INFO  org.apache.pig.backend.hadoop.executionengine.util.MapRedUtil - Total input paths to process : 10
2013-10-08 10:46:13,875 [main] INFO  org.apache.hadoop.mapreduce.lib.input.FileInputFormat - Total input paths to process : 10
2013-10-08 10:46:13,875 [main] INFO  org.apache.pig.backend.hadoop.executionengine.util.MapRedUtil - Total input paths to process : 10
2013-10-08 10:46:16,303 [main] INFO  org.apache.hadoop.mapreduce.lib.input.FileInputFormat - Total input paths to process : 10

当通常此步骤在几秒钟内完成时,它会重复上述大约 4 分钟。我无法确定原因 - 除了删除部分脚本,但问题似乎不是由脚本的任何特定部分引起的。我有其他脚本和这个一样复杂,我没有遇到过这个问题。什么可能导致问题?

4

1 回答 1

1

如果没有更多信息,我不能肯定地说,但似乎 pig 正在等待您的集群的 JobTracker 开始运行由您的脚本生成的底层 Map/Reduce 作业。发生这种情况的原因有很多,例如在资源不足的共享集群上运行。您很可能必须查看集群的 JobTracker 和/或 TaskTracker 才能了解确切原因。

于 2013-10-08T23:02:49.557 回答