我正在 Gzipped .arc 文件上运行 MapReduce 任务。与这个问题类似,我遇到了困难,因为 Gzip 解压缩是自动运行的(因为文件具有 .gz 扩展名),但它会导致换行/回车问题按照 Unix 文件编码呈现为换行符。这使得输入完全不可读,因为它取决于嵌入在文件中的特定字符数。我正在尝试禁用 Gzip 解压缩,以便我可以在我的映射器中正确执行此操作。我试过了:
-jobconf stream.recordreader.compression=none
但这似乎并不影响压缩。有什么办法可以防止对我的输入进行 Gzip 解压缩?
谢谢,-杰夫