1

在 HDFS 上的一个文件夹中,我有大约 37 GB 的数据

hadoop fs -dus 我的文件夹名

当我执行

hadoop fs -rmr 我的文件夹名

该命令在闪存中执行。但是在非分布式文件系统上,对于类似大小的目录, rm -rf 将花费更长的时间

为什么会有这么大的区别?我有一个 2 节点集群

4

2 回答 2

3

事实是,当您发出 hadoop fs -rmr 时,Hadoop 将文件移动到 HDFS 上您的主目录下的 .Trash 文件夹。在幕后,我相信这只是名称节点中的记录更改以移动 HDFS 上的文件位置。这就是为什么它非常快的原因。

于 2013-10-10T07:14:32.183 回答
1

通常在操作系统中,删除命令会删除关联的元数据而不是实际数据,这就是它快速的原因。HDFS 也是如此,该块可能仍在 DN 中,但对它们的所有引用都被删除。请注意,尽管删除命令释放了空间。

于 2013-10-10T05:34:20.037 回答