0

苏打水 2.2.9 版存在以下问题。我的 Hadoop 集群正在运行 CDH 5.13。根据 H2o 文档,我的内存应该是 H2o/Sparkling-water 集群中数据大小的大约 4 倍。

我可以将 750 GB 的数据文件 (CSV) 导入到具有 4 TB 内存(40 个执行程序,每个 100GB)的苏打水集群中。但是在加载更大的数据文件时遇到问题。此 (CSV) 文件大小约为 2.2 TB(也有 Parquet/Snappy 格式,大小为 550GB)。我创建了一个包含 100 个 100GB/executor 的 Sparkling-water 集群。“解析”步骤运行了大约 60-70%,然后容器开始失败,错误代码为 143 和 255。我已将内存提高到大约 12 TB,但仍然没有成功。

蟒蛇代码是:

import h2o
h2o.init(ip='hdchdp01v03', port=9500, strict_version_check=False)
ls_hdfs="hdfs://HDCHDP01ns/h2o_test/csv_20171004"
print("Reading files from ", ls_hdfs)
sum_df = h2o.import_file(path = ls_hdfs, destination_frame="sum_df")

有没有人遇到过类似的问题?我的 Hadoop 集群只有 20 TB 的内存,所以在大多数情况下占用 12 TB 的内存本身就很费劲。

对于我的第一个文件,我看到一旦将数据导入集群,它似乎需要大约两倍的内存文件大小,但不知道如何恢复我分配的 4 倍内存,直到苏打水集群关闭。

那么,我可以采取任何其他解决方法将这些数据加载到 H2o 中进行分析,并对可用集群内存进行一些尽职调查?

尚卡尔

4

0 回答 0