我正在尝试通过从 spark parquet 文件创建一个 h2o 框架来导入一个框架。该文件为 2GB,具有大约 12M 行和具有 12k 列的稀疏向量。镶木地板格式并不大,但导入需要很长时间。在 h2o 中,它实际上被报告为 447mb 压缩大小。其实很小。
我做错了吗,当我真正完成导入时(花了 39 分钟),h2o 中是否有任何形式可以将框架保存到磁盘以便下次快速加载?
我知道 h2o 在幕后做了一些魔术,这需要很长时间,但我只发现一个下载 csv 选项,对于 11k x 1M 稀疏数据来说,它是缓慢而巨大的,我怀疑导入它是否更快。
感觉好像少了一部分。任何有关 h2o 数据导入/导出的信息表示赞赏。模型保存/加载效果很好,但训练/验证/测试数据加载似乎是一个不合理的缓慢过程。
我得到了 10 个火花机,每个 10 克,给了司机 8 克。这应该足够了。