apache-spark - 无法将 2.3 TB 文件加载到具有 10 TB 内存的苏打水集群中

Question

苏打水 2.2.9 版存在以下问题。我的 Hadoop 集群正在运行 CDH 5.13。根据 H2o 文档，我的内存应该是 H2o/Sparkling-water 集群中数据大小的大约 4 倍。

我可以将 750 GB 的数据文件 (CSV) 导入到具有 4 TB 内存（40 个执行程序，每个 100GB）的苏打水集群中。但是在加载更大的数据文件时遇到问题。此 (CSV) 文件大小约为 2.2 TB（也有 Parquet/Snappy 格式，大小为 550GB）。我创建了一个包含 100 个 100GB/executor 的 Sparkling-water 集群。“解析”步骤运行了大约 60-70%，然后容器开始失败，错误代码为 143 和 255。我已将内存提高到大约 12 TB，但仍然没有成功。

蟒蛇代码是：

import h2o
h2o.init(ip='hdchdp01v03', port=9500, strict_version_check=False)
ls_hdfs="hdfs://HDCHDP01ns/h2o_test/csv_20171004"
print("Reading files from ", ls_hdfs)
sum_df = h2o.import_file(path = ls_hdfs, destination_frame="sum_df")

有没有人遇到过类似的问题？我的 Hadoop 集群只有 20 TB 的内存，所以在大多数情况下占用 12 TB 的内存本身就很费劲。

对于我的第一个文件，我看到一旦将数据导入集群，它似乎需要大约两倍的内存文件大小，但不知道如何恢复我分配的 4 倍内存，直到苏打水集群关闭。

那么，我可以采取任何其他解决方法将这些数据加载到 H2o 中进行分析，并对可用集群内存进行一些尽职调查？

尚卡尔

apache-spark - 无法将 2.3 TB 文件加载到具有 10 TB 内存的苏打水集群中

0 回答 0

Related

Reference