1

我想到了一个更基本的概念级别的问题,HDFS和各种文件格式——序列文件(基于它的映射文件)、HAR文件有什么区别和关系?

我想答案是,HDFS是基础文件系统,我们可以把原始二进制文件上传到HDFS(不用序列文件、HAR文件等),也可以使用一些特殊设计的文件格式来写文件HDFS——类似序列文件(基于它的映射文件)格式,HAR文件格式。这是正确的理解吗?

4

1 回答 1

4

HDFS是一个文件系统,不依赖于任何特定的文件格式。它是一个分布式文件系统,并抽象出有关文件实际保存在磁盘上的大多数内部细节​​(就像 NFS/FAT 一样)。它为我们提供了文件和目录结构的连续视图,但在内部,文件实际上被复制并存储在集群中各个节点的块中。

像序列文件这样的文件格式特别适合 map reduce 编程范式,因为它可以很容易地在数据节点之间拆分,从而实现并行处理。但是,HDFS 没有这样的偏好,它可以将任何文件格式分成块(即二进制/纯文本)并存储它。

于 2012-12-01T10:26:38.080 回答