Hadoop Mapreduce CombineFileInputFormat 在读取大量小文件时效果很好,但是我注意到有时作业会失败,并出现以下异常,
java.lang.RuntimeException: org.apache.hadoop.mapreduce.lib.input.CombineFileRecordReader.initNextRecordReader(CombineFileRecordReader.java:164) 的 java.lang.reflect.InvocationTargetException org.apache.hadoop.mapreduce.lib.input.CombineFileRecordReader .nextKeyValue(CombineFileRecordReader.java:67) at org.apache.hadoop.mapred.MapTask$NewTrackingRecordReader.nextKeyValue(MapTask.java:483) at org.apache.hadoop.mapreduce.task.MapContextImpl.nextKeyValue(MapContextImpl.java:76 ) 在 org.apache.hadoop.mapreduce.Mapper.run(Mapper.java:139) 在 org.apache.hadoop.mapreduce.lib.map.WrappedMapper$Context.nextKeyValue(WrappedMapper.java:85)。 hadoop.mapred.MapTask.runNewMapper(MapTask.java:672) at org.apache.hadoop.mapred.MapTask.run(MapTask.java:330) at org.apache.hadoop.mapred.Child$4.run(Child.java :268) 在java。security.AccessController.doPrivileged(Native Method) at javax.security.auth.Subject.doAs(Subject.java:415) at org.apache.hadoop.security.UserGroupInformation.doAs(UserGroupInformation.
我注意到只有当其他一些 mapreduce 作业同时在相同数据上运行时才会发生这种情况,否则它会按预期工作。
当我在类似条件下运行 hive 查询时,甚至会产生相同的异常。
我一直在寻找解决方案或可能的原因。