Find centralized, trusted content and collaborate around the technologies you use most.
Teams
Q&A for work
Connect and share knowledge within a single location that is structured and easy to search.
我有一些 MapReduce 输出的 lzo 压缩文件,它们将用于另一项工作。所有这些文件都已编入索引,并且我已将 LzoTextInputFormat 设置为 inputformat 类。
我的问题是:
在使用这些 lzo 文件时,如何处理记录/行边界?
一个记录/行可以被截断成两个相邻的压缩块。如果将两个相邻的块在逻辑上拆分为不同的 Mapper,则很难确定不完整的记录/行并将两部分组合起来。
有人可以帮助我吗?
使用序列文件。SequenceFile 写入带有同步标记的压缩块。因此,seqfile 是可拆分的。