1

当我运行加载大量小文件的 Pig 作业时,它会在此步骤中暂停很长时间:

2013-07-15 16:44:00,464 [JobControl] INFO  org.apache.hadoop.mapreduce.lib.input.FileInputFormat - Total input paths to process : 4277
2013-07-15 16:44:00,465 [JobControl] INFO  org.apache.pig.backend.hadoop.executionengine.util.MapRedUtil - Total input paths to process : 4277
2013-07-15 16:48:51,314 [JobControl] INFO  org.apache.pig.backend.hadoop.executionengine.util.MapRedUtil - Total input paths (combined) to process : 37

在此期间,我在作业跟踪器中看不到 map reduce 作业,因此我假设 Pig 正在发出 HDFS 命令来预组合文件(也许?)。有时,这项工作似乎会因为无法解释的原因而永远挂在那里。

有什么方法可以监控这个组合过程的进度(查看更多关于它当前正在做什么的细节)?

谢谢

4

1 回答 1

1

你看过Hadoop 存档吗?这可能有助于减少获取多个小文件所花费的时间。

于 2013-07-16T11:12:20.740 回答