12

我有用 C# 编写的 mapper 和 reducer 可执行文件。我想将这些与 Hadoop 流一起使用。

这是我用来创建 Hadoop 作业的命令...

hadoop jar $HADOOP_HOME/contrib/streaming/hadoop-streaming-*.jar 
-input "/user/hduser/ss_waits" 
-output "/user/hduser/ss_waits-output" 
–mapper "mono mapper.exe" 
–reducer "mono reducer.exe" 
-file "mapper.exe" 
-file "reducer.exe"

这是每个mapper遇到的错误...

java.io.IOException: Type mismatch in key from map: expected org.apache.hadoop.io.Text, recieved org.apache.hadoop.io.LongWritable
at org.apache.hadoop.mapred.MapTask$MapOutputBuffer.collect(MapTask.java:1014)
at org.apache.hadoop.mapred.MapTask$OldOutputCollector.collect(MapTask.java:592)
at org.apache.hadoop.mapred.lib.IdentityMapper.map(IdentityMapper.java:38)
at org.apache.hadoop.mapred.MapRunner.run(MapRunner.java:50)
at org.apache.hadoop.mapred.MapTask.runOldMapper(MapTask.java:436)
at org.apache.hadoop.mapred.MapTask.run(MapTask.java:372)
at org.apache.hadoop.mapred.Child$4.run(Child.java:255)
at java.security.AccessController.doPrivileged(Native Method)
at javax.security.auth.Subject.doAs(Subject.java:415)
at org.apache.hadoop.security.UserGroupInformation.doAs(UserGroupInformation.java:1121)
at org.apache.hadoop.mapred.Child.main(Child.java:249)

基于调用堆栈,问题似乎是(Java)IdentityMapper 类被用作映射器。(这解释了导致类型不匹配错误的原因)。映射器应该是可执行文件“mono mapper.exe”。

任何想法为什么不使用mono mapper.exe ?

mapper.exe 和 reducer.exe 具有以下权限:-rwxr-xr-x

我能够从 unix 命令 shell 成功执行mono mapper.exe并让它从标准输入读取文本并写入标准输出。

环境:

  • Ubuntu Server 12.04 LTS(在 Azure 上运行的 VM)
  • Hadoop 1.0.4
  • 单声道 2.10
4

1 回答 1

1

假设 mono 在 PATH 中,您是否需要 mapper.exe 和 reducer.exe 的完整路径?IE

hadoop jar $HADOOP_HOME/contrib/streaming/hadoop-streaming-*.jar 
-input "/user/hduser/ss_waits" 
-output "/user/hduser/ss_waits-output" 
–mapper "mono /path/to/mapper.exe" 
–reducer "mono /path/to/reducer.exe" 
-file "mapper.exe" 
-file "reducer.exe"
于 2013-04-25T19:46:45.083 回答