0

我有一个 .bz2 文件的文件夹(实际上在 HDFS 上,但我认为这不会影响问题)。其中一些在解压缩时会给出单个空文件。我想删除所有解压缩为空的 .bz2 文件,我注意到它们的大小均为 14 字节。简单地删除所有 14 字节文件是否安全?或者非空文件是否可以从 14 字节 bz2 压缩/解压缩?

4

2 回答 2

0

我创建了一个空文本文件并用 bzip2 压缩并插入 hdfs。空 bzip2 文件的大小为 14B。当我对非空文件(只有一个字符)做同样的事情时,它是 39 字节。

我的结论是所有 14B bzip2 文件都是空的。

根据测试用例做出自己的决定......

在此处输入图像描述

于 2017-07-25T12:45:55.240 回答
0

BZ2 是 Bzip 2 使用的一种压缩文件格式。Bzip 2 是由 Julian Seward 创建的开放且免费的压缩程序。BZ2 文件使用 Burrows-Wheeler 压缩算法结合运行长度编码 (RLE) 以实现最大压缩。关联

如果您想删除这些文件,请首先使用以下代码片段获取 .gz 文件的详细信息。

解压gz2文件

gunzip -c test.bz2 | hadoop fs -put - /path/filepath

阅读内容

hadoop fs -text /path_for_hdfs/test.bz2 | hadoop fs -put /hdfs_path/abc.txt
于 2017-07-25T12:02:24.003 回答