由于 Hadoop 疯狂的数据分布和管理,我面临一个奇怪的问题。由于非 DFS 的使用,我的一两个数据节点已完全填满,而其他数据节点几乎是空的。有没有办法让非 dfs 的使用更加统一?[我已经尝试过使用 dfs.datanode.du.reserved 但这也无济于事]
问题示例:我有 16 个数据节点,每个节点有 10 GB 空间。最初,每个节点都有大约。7 GB 可用空间。当我开始处理 5 GB 数据的作业(复制因子 = 1)时,我希望该作业能够成功完成。可惜!当我监视作业执行时,我突然看到一个节点空间不足,因为非 dfs 使用量约为 6-7 GB,然后它重试,另一个节点现在空间不足。我真的不想有更高的重试次数,因为这不会给出我正在寻找的性能指标。
知道如何解决此问题。