当我运行加载大量小文件的 Pig 作业时,它会在此步骤中暂停很长时间:
2013-07-15 16:44:00,464 [JobControl] INFO org.apache.hadoop.mapreduce.lib.input.FileInputFormat - Total input paths to process : 4277
2013-07-15 16:44:00,465 [JobControl] INFO org.apache.pig.backend.hadoop.executionengine.util.MapRedUtil - Total input paths to process : 4277
2013-07-15 16:48:51,314 [JobControl] INFO org.apache.pig.backend.hadoop.executionengine.util.MapRedUtil - Total input paths (combined) to process : 37
在此期间,我在作业跟踪器中看不到 map reduce 作业,因此我假设 Pig 正在发出 HDFS 命令来预组合文件(也许?)。有时,这项工作似乎会因为无法解释的原因而永远挂在那里。
有什么方法可以监控这个组合过程的进度(查看更多关于它当前正在做什么的细节)?
谢谢