Find centralized, trusted content and collaborate around the technologies you use most.
Teams
Q&A for work
Connect and share knowledge within a single location that is structured and easy to search.
在 HDFS 上的一个文件夹中,我有大约 37 GB 的数据
hadoop fs -dus 我的文件夹名
当我执行
hadoop fs -rmr 我的文件夹名
该命令在闪存中执行。但是在非分布式文件系统上,对于类似大小的目录, rm -rf 将花费更长的时间
为什么会有这么大的区别?我有一个 2 节点集群
事实是,当您发出 hadoop fs -rmr 时,Hadoop 将文件移动到 HDFS 上您的主目录下的 .Trash 文件夹。在幕后,我相信这只是名称节点中的记录更改以移动 HDFS 上的文件位置。这就是为什么它非常快的原因。
通常在操作系统中,删除命令会删除关联的元数据而不是实际数据,这就是它快速的原因。HDFS 也是如此,该块可能仍在 DN 中,但对它们的所有引用都被删除。请注意,尽管删除命令释放了空间。