java - Hadoop 流、typedbytes 和/或 rawbytes 中的键、值和记录是如何分隔的

Question

我知道 Hadoop 流中的文本记录由换行符分隔，并且键和值之间有一个可配置的分隔符（默认为制表符）。

1) rawbytes 格式的结构表明不需要记录或键/值分隔符，但有人可以确认是这种情况吗？

2）在typedbytes格式中，key和value是如何分隔的，record是如何分隔的？

3）另外，键是如何以 typedbytes 和 rawbytes 格式排序的？

score 0 · Accepted Answer

正确的
标头中的长度信息使分隔符变得不必要，实际上它们并没有在规范中使用，除了一个例外，255 分隔列表，类型代码 9
未指定排序顺序。根据我的经验，mapreduce 中的默认比较器将它们排序为原始字节，每个字节按数字排序，数组按字典顺序排序。它是可插入的，因此您可以使用自己的 Java 类对其进行更改。

安东尼奥

1 回答 1