3

我知道 Hadoop 流中的文本记录由换行符分隔,并且键和值之间有一个可配置的分隔符(默认为制表符)。

1) rawbytes 格式的结构表明不需要记录或键/值分隔符,但有人可以确认是这种情况吗?

2)在typedbytes格式中,key和value是如何分隔的,record是如何分隔的?

3)另外,键是如何以 typedbytes 和 rawbytes 格式排序的?

4

1 回答 1

0
  1. 正确的
  2. 标头中的长度信息使分隔符变得不必要,实际上它们并没有在规范中使用,除了一个例外,255 分隔列表,类型代码 9
  3. 未指定排序顺序。根据我的经验,mapreduce 中的默认比较器将它们排序为原始字节,每个字节按数字排序,数组按字典顺序排序。它是可插入的,因此您可以使用自己的 Java 类对其进行更改。

https://hadoop.apache.org/docs/current2/api/org/apache/hadoop/typedbytes/package-summary.html

安东尼奥

于 2014-01-09T19:45:42.630 回答