hadoop - Mapreduce combinefileinputformat java.lang.reflect.InvocationTargetException 而两个作业访问相同的数据

Question

Hadoop Mapreduce CombineFileInputFormat 在读取大量小文件时效果很好，但是我注意到有时作业会失败，并出现以下异常，

java.lang.RuntimeException: org.apache.hadoop.mapreduce.lib.input.CombineFileRecordReader.initNextRecordReader(CombineFileRecordReader.java:164) 的 java.lang.reflect.InvocationTargetException org.apache.hadoop.mapreduce.lib.input.CombineFileRecordReader .nextKeyValue(CombineFileRecordReader.java:67) at org.apache.hadoop.mapred.MapTask$NewTrackingRecordReader.nextKeyValue(MapTask.java:483) at org.apache.hadoop.mapreduce.task.MapContextImpl.nextKeyValue(MapContextImpl.java:76 ) 在 org.apache.hadoop.mapreduce.Mapper.run(Mapper.java:139) 在 org.apache.hadoop.mapreduce.lib.map.WrappedMapper$Context.nextKeyValue(WrappedMapper.java:85)。 hadoop.mapred.MapTask.runNewMapper(MapTask.java:672) at org.apache.hadoop.mapred.MapTask.run(MapTask.java:330) at org.apache.hadoop.mapred.Child$4.run(Child.java :268) 在java。security.AccessController.doPrivileged(Native Method) at javax.security.auth.Subject.doAs(Subject.java:415) at org.apache.hadoop.security.UserGroupInformation.doAs(UserGroupInformation.

我注意到只有当其他一些 mapreduce 作业同时在相同数据上运行时才会发生这种情况，否则它会按预期工作。

当我在类似条件下运行 hive 查询时，甚至会产生相同的异常。

我一直在寻找解决方案或可能的原因。

score 1 · Accepted Answer

最后我得到了这个问题的原因，实际上我一直在使用带有 gzip 的 CombineFileInputFormat，所以第一个运行的作业是在同一个文件夹中提取 gzip 文件并在完成时将其删除，但是当我并行运行另一个作业时它还会在其输入中获取由 firstjob 解压缩的文件。

因此，在执行第二个作业之间，解压缩的文件被第一个作业删除，这实际上导致了错误。

蜂巢的情况也类似。

hadoop - Mapreduce combinefileinputformat java.lang.reflect.InvocationTargetException 而两个作业访问相同的数据

1 回答 1

Related

Reference