java - apache Mahout 中的 WrongValueClass

Question

我已经使用 mahout 编写了一个 mapreduce 程序。地图输出值为ClusterWritable.当我在eclipse中运行代码时，它运行没有错误，但是当我在终端中运行rhe jar文件时，它显示异常：

java.io.IOException: wrong value class: org.apache.mahout.math.VectorWritable is not class org.apache.mahout.clustering.iterator.ClusterWritable
at org.apache.hadoop.io.SequenceFile$Writer.append(SequenceFile.java:988)
at org.apache.hadoop.mapreduce.lib.output.SequenceFileOutputFormat$1.write(SequenceFileOutputFormat.java:74)
at org.apache.hadoop.mapred.MapTask$NewDirectOutputCollector.write(MapTask.java:498)
at org.apache.hadoop.mapreduce.TaskInputOutputContext.write(TaskInputOutputContext.java:80)
at org.apache.mahout.clustering.canopy.CanopyMapper.cleanup(CanopyMapper.java:59)
at org.apache.hadoop.mapreduce.Mapper.run(Mapper.java:146)
at org.apache.hadoop.mapred.MapTask.runNewMapper(MapTask.java:621)
at org.apache.hadoop.mapred.MapTask.run(MapTask.java:305)
at org.apache.hadoop.mapred.Child.main(Child.java:170)

地图中的输出代码为：

context.write(new Text(), new ClusterWritable());

但我不知道为什么它说值类型是VectorWritable.

score 0 · Accepted Answer

Mapper 正在运行，导致上面的堆栈跟踪是 Mahout 的 CanopyMapper，而不是您编写的自定义。CanopyMapper.cleanup 方法正在输出（键：文本，值：VectorWritable）。参见CanopyMapper.java

另请参阅CanopyDriver.java及其 buildClustersMR 方法，其中配置了 MR 作业、映射器、reducer 和适当的输出键/值类。

您没有说明，所以我猜您在数据流管道中使用了多个 MR 作业。检查管道中每个作业的输出是否是管道中下一个作业的有效/预期输入。考虑使用级联/烫伤来定义你的数据流（见http://www.slideshare.net/melrief/scalding-programming-model-for-hadoop）

考虑使用Mahout 用户邮件列表发布 Mahout 相关问题。

java - apache Mahout 中的 WrongValueClass

1 回答 1

Related

Reference