0

我想在 HDFS(Hadoop 文件系统)上保存图像文件(如 jpeg、png 等)。我尝试了两种方法:

  1. 使用命令将图像文件按原样(即以相同格式)保存到 HDFS 中put。完整的命令是 : hadoop fs -put /home/a.jpeg /user/hadoop/。它被成功放置。
  2. 将这些图像文件转换为 Hadoop 的格式,然后使用命令Sequence File保存在 HDFS 中。put

我想知道应该使用哪种格式保存在 HDFS 中。
以及使用Sequence File格式的优点是什么。我知道的优点之一是它是可拆分的。还有其他吗?

4

1 回答 1

1

与 HDFS 存储的块大小相比,图像的大小非常小。小文件的问题是对处理性能的影响,这就是为什么你应该使用序列文件、HAR、HBase 或合并解决方案。查看这两个线程的更多信息。

存储图像文件的有效方法

现代 HDP 集群上有多少文件太多?

处理一个 1Mb 的文件会有开销。因此,与处理 1 128Mb 文件相比,处理 128 个 1Mb 文件将花费 128 倍的“管理”开销。在纯文本中,该 1Mb 文件可能包含 1000 条记录。128 Mb 文件可能包含 128000 条记录。

于 2016-07-14T12:08:00.167 回答