hadoop - 为什么Hadoop HDFS -rmr命令超级快

Question

在 HDFS 上的一个文件夹中，我有大约 37 GB 的数据

hadoop fs -dus 我的文件夹名

当我执行

hadoop fs -rmr 我的文件夹名

该命令在闪存中执行。但是在非分布式文件系统上，对于类似大小的目录， rm -rf 将花费更长的时间

为什么会有这么大的区别？我有一个 2 节点集群

score 3 · Accepted Answer

事实是，当您发出 hadoop fs -rmr 时，Hadoop 将文件移动到 HDFS 上您的主目录下的 .Trash 文件夹。在幕后，我相信这只是名称节点中的记录更改以移动 HDFS 上的文件位置。这就是为什么它非常快的原因。

score 1 · Accepted Answer

通常在操作系统中，删除命令会删除关联的元数据而不是实际数据，这就是它快速的原因。HDFS 也是如此，该块可能仍在 DN 中，但对它们的所有引用都被删除。请注意，尽管删除命令释放了空间。

2 回答 2