0

考虑一下class:(从Hadoop: The definitive guide第 3 版开始):

import java.io.*;
import org.apache.hadoop.io.*;

public class TextPair implements WritableComparable<TextPair> {

  private Text first;
  private Text second;

  public TextPair() {
    set(new Text(), new Text());
  }

  public TextPair(String first, String second) {
    set(new Text(first), new Text(second));
  }

  public TextPair(Text first, Text second) {
    set(first, second);
  }

  public void set(Text first, Text second) {
    this.first = first;
    this.second = second;
  }

  public Text getFirst() {
    return first;
  }

  public Text getSecond() {
    return second;
  }

  @Override
  public void write(DataOutput out) throws IOException {
    first.write(out);
    second.write(out);
  }

  @Override
  public void readFields(DataInput in) throws IOException {
    first.readFields(in);
    second.readFields(in);
  }

  @Override
  public int hashCode() {
    return first.hashCode() * 163 + second.hashCode();
  }

  @Override
  public boolean equals(Object o) {
    if (o instanceof TextPair) {
      TextPair tp = (TextPair) o;
      return first.equals(tp.first) && second.equals(tp.second);
    }
    return false;
  }

  @Override
  public String toString() {
    return first + "\t" + second;
  }

  @Override
  public int compareTo(TextPair tp) {
    int cmp = first.compareTo(tp.first);
    if (cmp != 0) {
      return cmp;
    }
    return second.compareTo(tp.second);
  }
  // ^^ TextPair

  // vv TextPairComparator
  public static class Comparator extends WritableComparator {

    private static final Text.Comparator TEXT_COMPARATOR = new Text.Comparator();

    public Comparator() {
      super(TextPair.class);
    }

    @Override
    public int compare(byte[] b1, int s1, int l1,
                       byte[] b2, int s2, int l2) {

      try {
        int firstL1 = WritableUtils.decodeVIntSize(b1[s1]) + readVInt(b1, s1);
        int firstL2 = WritableUtils.decodeVIntSize(b2[s2]) + readVInt(b2, s2);
        int cmp = TEXT_COMPARATOR.compare(b1, s1, firstL1, b2, s2, firstL2);
        if (cmp != 0) {
          return cmp;
        }
        return TEXT_COMPARATOR.compare(b1, s1 + firstL1, l1 - firstL1,
                                       b2, s2 + firstL2, l2 - firstL2);
      } catch (IOException e) {
        throw new IllegalArgumentException(e);
      }
    }
  }

  static {
    WritableComparator.define(TextPair.class, new Comparator());
  }
  // ^^ TextPairComparator

  // vv TextPairFirstComparator
  public static class FirstComparator extends WritableComparator {

    private static final Text.Comparator TEXT_COMPARATOR = new Text.Comparator();

    public FirstComparator() {
      super(TextPair.class);
    }

    @Override
    public int compare(byte[] b1, int s1, int l1,
                       byte[] b2, int s2, int l2) {

      try {
        int firstL1 = WritableUtils.decodeVIntSize(b1[s1]) + readVInt(b1, s1);
        int firstL2 = WritableUtils.decodeVIntSize(b2[s2]) + readVInt(b2, s2);
        return TEXT_COMPARATOR.compare(b1, s1, firstL1, b2, s2, firstL2);
      } catch (IOException e) {
        throw new IllegalArgumentException(e);
      }
    }

    @Override
    public int compare(WritableComparable a, WritableComparable b) {
      if (a instanceof TextPair && b instanceof TextPair) {
        return ((TextPair) a).first.compareTo(((TextPair) b).first);
      }
      return super.compare(a, b);
    }
  }
  // ^^ TextPairFirstComparator

// vv TextPair
}
// ^^ TextPair

定义的有两种comparators:一种是排序first后跟second默认comparator. ,另一种是first仅排序,也就是firstComparator.

如果我必须使用 firstComparator 对我的键进行排序,我该如何实现?也就是说,我如何用first comparator上面定义的 覆盖我的默认比较器。

其次,unitTest由于mapjob 的输出不是sorted. ?

4

1 回答 1

2

如果我必须使用 firstComparator 对我的键进行排序,我该如何实现?也就是说,我如何用上面定义的第一个比较器覆盖我的默认比较器。

我假设您期望一个类似于 setComparator(firstComparator) 的方法。据我所知,没有这样的方法。compareTo()使用表示键的类型对键进行排序(在映射器端)Writeable。在您的情况下,该compareTo()方法检查第一个值,然后检查第二个值。换句话说,键将按第一个值排序,然后,同一组中的键(即具有相同的第一个值)将按它们的第二个值排序。

总而言之,这意味着您的键将始终按第一个值排序(如果第一个值无法做出决定,则按第二个值排序)。这反过来意味着不需要有一个不同的比较器 ( firstComparator),它只查看第一个值,因为这已经通过您的类的compareTo()方法实现。TextPair

另一方面,如果对firstComparator键的排序完全不同,唯一的解决方案是将逻辑移到表示键的类firstComparatorcompareTo()方法中。Writable我看不出你有什么不这样做的理由。如果你已经有了firstComparator并且想重用它,你可以实例化它并compareTo()TexPair Writable.

您可能还想看看GroupingComparatorwhich 用于决定在方法的同一调用中一起使用哪些键reduce()。由于您没有准确描述您想要实现的目标,因此我无法确定这是否会有所帮助。

其次,由于地图作业的输出未排序,我将如何对此进行单元测试。?

顾名思义,单元测试意味着测试单个代码单元(大多数时候是方法/函数/过程)。如果您想对您的 reduce 方法进行单元测试,您必须提供有趣的输入案例并检查被测方法是否输出预期结果。更具体地说,你必须在你的键上创建/模拟一个排序的 Iterable 并用它调用你的 reduce 函数。对 reduce 方法进行单元测试不应依赖于相应 map 方法的执行。

于 2014-07-12T00:28:07.113 回答