2

我正在尝试学习 HDInsight 和 Hadoop。

追加到 HDFS 中的文件而不是将额外的数据文件复制到 HDFS 中的同一数据文件夹有什么好处?

更清楚的是,从我的单节点机器上,我将数据文件上传到了 HDFS。现在如果我需要向这个文件添加额外的数据,我可以使用“追加”方法,对吧?或者我可以将新的额外文件发送到同一输入文件夹下的 HDFS 吗?这样它将有多个文件作为输入文件。

将额外数据附加到 HDFS 文件有什么缺点吗?正如我所理解的那样,由于数据块是 64 MB 或 128 MB,我只会有一个额外的数据块,对吗?

假设我的第一个输入文件是 75 MB,我将有两个数据块 64 MB 和 11 MB,如果我添加新文件(75 MB)而不附加,那么我将有 4 个大小块:64 MB, 11 MB、64 MB 和 11 MB。如果我使用附加方法,那么我将有 3 个大小块:64 MB、64 MB 和 22 MB。

我理解正确吗?多一个数据块的缺点是不是很大的问题?

4

0 回答 0