hadoop - 在亚马逊 EMR 上运行 HBase 时，为什么 /tmp 文件夹与实际数据相比很大？

Question

我们在亚马逊 EMR 上有一个默认配置的 hadoop+hbase 集群，因此mapred.child.tmp和都hbase.tmp.dir指向/tmp. 我们的集群已经运行了一段时间，现在/tmp是 500Gb，而实际/hbase数据是 70Gb。

这种差异似乎太大了，我们应该定期删除一些/tmp数据吗？

score 1 · Accepted Answer

经过一番调查，我发现我们的大部分/tmp数据是由 Amazon 将 Hbase 自动备份到 S3 期间失败的 mapreduce 任务创建的。我们成功的 mapreduce 任务不会在/tmp.

我们决定禁用亚马逊的自动备份，并使用 Hbase 工具实现我们自己的备份脚本来导入/导出表。

1 回答 1