0

我注意到在这种情况下,这些文件的大小是恒定的(在我的情况下,我选择了 128 字节的压缩)。是否有 API 或方法来检查文件是否没有任何内容?

4

2 回答 2

2

除了打开文件并尝试获取第一个键/值对之外,没有。原因是没有标题详细说明每个“块”中的记录数(主要是因为数据是流出的,所以在写入标题时,没有关于键数的先验知识)。

以前有一些关于如何避免创建这些“空”文件的线程,但唯一真正的方法是创建自己的 OutputFormat 和 OutputComitter,它跟踪输出值的数量,并且不提交文件如果没有写入数据。

于 2012-05-18T18:34:32.027 回答
0

在 HDFS 或 S3 中打开和检查序列文件的一种简单解决方案

hadoop fs -text path_of_sequence_file

于 2013-11-26T12:19:12.310 回答