java - 在Java Hadoop中使用KeyFieldBasedPartitioner和二次排序类似于Hadoop Streaming

问问题 2015-10-24T15:49:33.213

596 次

使用 Hadoop 流时，可以像这样设置和配置分区器和排序器：

hadoop jar /opt/hadoop/hadoop-2.7.1/share/hadoop/tools/lib/hadoop-streaming-2.7.1.jar \
-D mapreduce.map.output.key.field.separator=. \
-D stream.map.output.field.separator= \
-D stream.num.map.output.key.fields=2 \
-D num.key.fields.for.partition=2 \
-D mapreduce.job.output.key.comparator.class=org.apache.hadoop.mapreduce.lib.partition.KeyFieldBasedComparator \
-partitioner org.apache.hadoop.mapred.lib.KeyFieldBasedPartitioner

我想在我的 Javamain()方法中做同样的事情。排序可以这样实现：

job.setSortComparatorClass(KeyFieldBasedComparator.class);    
KeyFieldBasedComparator.setKeyFieldComparatorOptions(job, "-k 1,2");

.setKeyFieldPartitionerOptions然而，类中的方法KeyFieldBasedPartitioner不是static：

KeyFieldBasedPartitioner partitioner = new KeyFieldBasedPartitioner();
partitioner.setKeyFieldPartitionerOptions(job, "-k 1,2");

在作业对象中，我只能设置一个类，但是：

job.setPartitionerClass(KeyFieldBasedPartitioner.class);

在这种情况下如何设置上述选项？当然，我可以实现自己的分区器类，但是如果应该有一个简单的方法，为什么还要努力呢？

java - 在Java Hadoop中使用KeyFieldBasedPartitioner和二次排序类似于Hadoop Streaming

0 回答 0

Related

Reference