“h2o”包是一个有趣的 ML java 工具,可通过 R 访问。用于访问“h2o”的 R 包称为“ h2o ”。

输入途径之一是告诉“h2o”一个 csv 文件在哪里,然后让“h2o”上传原始 CSV。仅指出文件夹并告诉“h2o”使用h2o.importFolder命令导入“其中的所有内容”会更有效。

有没有办法指出“gzip”或“bzip”csv 文件的文件夹并让“h2o”导入它们?

根据此链接(此处),h2o 可以导入压缩文件。我只是看不到为 importFolder 方法指定此方法的方法。

导入压缩表格是快还是慢?如果我有另一个产生输出的程序,如果它们被压缩,它是否可以节省我在 h2o 导入过程中的时间?如果它们是原始文本?指南和性能最佳实践值得赞赏。



1 回答 1


I took the advice of @screechOwl and asked on the 0xdata.atlassian.net board for h2o and was given a clear answer:

It was supplied by user "cliff".

Hi, yes H2O - when importing a folder - takes all the files in the folder; it unzips gzip'd or zip'd files as needed, and parses them all into one large CSV. All the files have to be compatible in the CSV sense - same number and kind of columns.

H2O does not currently handle bzip files.

于 2015-02-21T18:42:55.250 回答