0

我有一些 MapReduce 输出的 lzo 压缩文件,它们将用于另一项工作。所有这些文件都已编入索引,并且我已将 LzoTextInputFormat 设置为 inputformat 类。

我的问题是:

在使用这些 lzo 文件时,如何处理记录/行边界?

一个记录/行可以被截断成两个相邻的压缩块。如果将两个相邻的块在逻辑上拆分为不同的 Mapper,则很难确定不完整的记录/行并将两部分组合起来。

有人可以帮助我吗?

4

1 回答 1

1

使用序列文件。SequenceFile 写入带有同步标记的压缩块。因此,seqfile 是可拆分的。

于 2012-11-02T15:11:21.820 回答