hadoop - 使用 Behemoth 和 map reduce 转换为 Tika 时配置对象时出错

Question

我正在运行命令以使用本教程中给出的 map reduce 将巨兽语料库转换为 tika

我在执行此操作时遇到以下错误：

    13/02/25 14:44:00 INFO mapred.FileInputFormat: Total input paths to process : 1
13/02/25 14:44:01 INFO mapred.JobClient: Running job: job_201302251222_0017
13/02/25 14:44:02 INFO mapred.JobClient:  map 0% reduce 0%
13/02/25 14:44:09 INFO mapred.JobClient: Task Id : attempt_201302251222_0017_m_000000_0, Status : FAILED
java.lang.RuntimeException: Error in configuring object
    at org.apache.hadoop.util.ReflectionUtils.setJobConf(ReflectionUtils.java:93)
    at org.apache.hadoop.util.ReflectionUtils.setConf(ReflectionUtils.java:64)
    at org.apache.hadoop.util.ReflectionUtils.newInstance(ReflectionUtils.java:117)
    at org.apache.hadoop.mapred.MapTask.runOldMapper(MapTask.java:387)
    at org.apache.hadoop.mapred.MapTask.run(MapTask.java:325)
    at org.apache.hadoop.mapred.Child$4.run(Child.java:270)
    at java.security.AccessController.doPrivileged(Native Method)
    at javax.security.auth.Subject.doAs(Subject.java:416)
    at org.apache.hadoop.security.UserGroupInformation.doAs(UserGroupInformation.java:1127)
    at org.apache.hadoop.mapred.Child.main(Child.java:264)
attempt_201302251222_0017_m_000001_0: log4j:WARN No appenders could be found for logger (org.apache.hadoop.hdfs.DFSClient).
attempt_201302251222_0017_m_000001_0: log4j:WARN Please initialize the log4j system properly.
13/02/25 14:44:14 INFO mapred.JobClient: Task Id : attempt_201302251222_0017_m_000001_1, Status : FAILED
java.lang.RuntimeException: Error in configuring object
    at org.apache.hadoop.util.ReflectionUtils.setJobConf(ReflectionUtils.java:93)
    at org.apache.hadoop.util.ReflectionUtils.setConf(ReflectionUtils.java:64)
    at org.apache.hadoop.util.ReflectionUtils.newInstance(ReflectionUtils.java:117)
    at org.apache.hadoop.mapred.MapTask.runOldMapper(MapTask.java:387)
    at org.apache.hadoop.mapred.MapTask.run(MapTask.java:325)
    at org.apache.hadoop.mapred.Child$4.run(Child.java:270)
    at java.security.AccessController.doPrivileged(Native Method)

我无法理解确切的问题。可能的原因是什么？我是否需要将任何 jar 从 Behemoth/Tika 添加到 hadoop 工作目录？

score 1 · Accepted Answer

我有同样的问题。如本页所述，该过程对我有所帮助。在我运行“mvn clean install”之后，tika 作业按照教程中的描述工作。

score 1 · Accepted Answer

您提到的教程已过时。请参阅wiki 上的教程，这是参考。日志没有提供任何有用的信息来说明问题可能是什么，但让 Behemoth 工作所需的只是每个模块的作业文件。如果您在服务器上运行 Hadoop，只需对作业文件使用 Hadoop 命令或为简单起见使用巨兽脚本。顺便说一句，DigitalPebble 邮件列表将是一个更好的地方来询问有关 Behemoth 的问题

高温高压

朱利安

hadoop - 使用 Behemoth 和 map reduce 转换为 Tika 时配置对象时出错

2 回答 2

Related

Reference