0

我有一个输入 bz2 文件的文件夹,其中一些可能已损坏,我想在运行 MR 作业之前删除所有损坏/无效的 bz2 文件。有什么好的方法吗?

4

1 回答 1

0

使用 bzip2 -t 测试 bzip 文件是否损坏。如果它已损坏,我认为您可以看到类似的内容。

bzip2: test1.txt: bad magic number (file not created by bzip2)
bzip2: 2: bad magic number (file not created by bzip2)

You can use the `bzip2recover' program to attempt to recover
data from undamaged sections of corrupted files.

因此,如果您的文件位于本地文件系统中,则基于上述要点使用一些 shell 脚本应该可以工作。如果您的文件已经在 HDFS 上,则使用带有 mapper 的Hadoop 流作为脚本来输出损坏的文件,并且没有 reducer,或者使用 reducer 来删除或后处理这些文件。

于 2013-10-24T03:05:50.830 回答