问题标签 [h2o]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
2 回答
129 浏览

r - R - 数据处理和可扩展代码

嗨,在过去的几天里,我遇到了一个小/大问题。

我有一个交易数据集,有 100 万行和两列(客户 ID 和产品 ID),我想将其转换为二进制矩阵。我使用了 reshape 和 spread 功能,但在这两种情况下,我都使用了 64mb 内存并且 Rstudio/R 出现故障。因为我只用了1个CPU,所以这个过程需要很多时间我的问题是,小数据和大数据之间的这种转变有什么新的进展?谁可以使用更多的cpu?

我搜索并找到了几个解决方案,但我需要专业意见

1 - 使用 Spark R?

2 - H20.ai 解决方案? http://h2o.ai/product/enterprise-support/

3 - 革命分析?http://www.revolutionanalytics.com/big-data

4 - 去云端?像微软天蓝色?

如果需要,我可以使用具有很多内核的虚拟机.. 但我需要知道进行此交易的流畅方式是什么

我的具体问题

我有这个data.frame(但有100万行)

我做到了:

这适用于一个小数据集.. 但是有 100 万行这需要很长时间(12 小时)并且会下降,因为我的最大内存是 64MB。有什么建议么?

0 投票
1 回答
63 浏览

python - h2o:区分本地和hadoop实例

Python客户端有没有办法区分H2O在本地启动的情况java -jar h2o.jar和在hadoop上启动的情况hadoop -jar h2odriver.jar

0 投票
2 回答
1340 浏览

python - h2o:遍历行

我知道 h2o 的内部数据模型是面向列的(即 H2OFrame 是 H2OVec 的集合)。但是,我想使用的库需要遍历 H2OFrame 的行。

有没有一种干净的方法来获取行上的迭代器,还是我需要求助于索引

我知道它会很慢,我会h2o.h2o.export_file尽可能使用。

0 投票
2 回答
523 浏览

java - 我可以直接使用 Java 中的 H2O 库函数,还是 H2O 的唯一选择是 R?

我想在java中使用机器学习算法。使用 hadoop 的 Mahout 太慢,并且由于数据量大, weka 无法工作。那么是否可以从 Java 或任何其他可用于 Java 的更好选项中调用 H2O 库?

0 投票
1 回答
100 浏览

r - 在 R 的 H2O 深度学习中以编程方式访问 MSE

我正在使用 R 中的当前版本的 H2O,并遵循必须使用早期版本创建的“深度学习”示例。

我在调整旧示例代码时遇到的一个挑战是,我无法使用以下代码以编程方式访问 MSE 之类的交叉验证统计信息:

cvmodel@model$valid_sqr_error

在检查 H2O 模型对象的结构后,我可以在这里找到 MSE 和其他统计信息:

但我无法弄清楚以编程方式仅获取其中一个数字的语法:

0 投票
1 回答
836 浏览

r - 将“h2o”函数结果输出到向量

我有一个与此类似的问题(链接),除了我的问题是指 java 工具“h2o”及其与“r”的连接。

特别是我想将“h2o”对象分配给向量(或结构或数组)的一部分。我想循环并存储其中的几个而不必手动枚举。

我在链接上尝试了解决方案,但它不适用于“h2o”对象。

这是我更长的代码(疣和所有):

我得到的错误是:

我的意图是拥有一个 GBM 的列表/结构/数组,然后我可以针对整个数据集运行预测,并剔除信息量较少的那些。我正在尝试按照 Eugene Tuv 的步骤制作一个体面的“gbt 随机森林”。我没有他的密码。

问题:
是否有适当的方法将 h2o gbm 及其几个(数百个)伙伴打包到 r 中的单个商店中?

如果引用的对象在 java 中被丢弃,使这种方法不可行,是否有使用“gbm”库的可行变体?如果我最终不得不使用 gbm,与 h2o 的速度差异是多少?

0 投票
1 回答
396 浏览

r - h2o (un) 有序因子

嗨,我遇到了 h2o(3) 没有加载我的因素的问题。

问题类似于:无法将数据框转换为 h2o 对象

但是我尝试使用:myData<- data.frame(apply(myData, 2, factor, ordered=FALSE))但错误仍然存​​在:Provided column type c("ordered", "enum") is unknown.

有没有其他方法可以确保 my factoris unordered

编辑

这里是数据的一个子集

0 投票
1 回答
822 浏览

r - 从 h2o 性能中获取 mse 并将其保存在变量中。

我在 h2o(R) 中有一个模型。它的性能产生

给出输出

我想采用 MSE 并将其保存在变量中。我尝试使用生成混淆矩阵

但它会生成 NULL。

0 投票
1 回答
3706 浏览

r - 在 R 中启动 h2o.init() 时出错

尝试启动 h2o 时出现错误。运行以下启动命令:

给出以下错误:

这不是特别有启发性。有没有人暗示有什么问题?系统上安装了 Java,但与这里的问题不同,我没有收到任何 Java 警告。

运行 system("java -version") 给出:

这是 sessionInfo() 的输出:

0 投票
1 回答
2711 浏览

java - 在 h2o 中加载大于内存大小的数据

我正在尝试加载大于 h2o 中内存大小的数据。

H2o博客提到:A note on Bigger Data and GC: We do a user-mode swap-to-disk when the Java heap gets too full, i.e., you’re using more Big Data than physical DRAM. We won’t die with a GC death-spiral, but we will degrade to out-of-core speeds. We’ll go as fast as the disk will allow. I’ve personally tested loading a 12Gb dataset into a 2Gb (32bit) JVM; it took about 5 minutes to load the data, and another 5 minutes to run a Logistic Regression.

这是R连接到的代码h2o 3.6.0.8

我试图将 169 MB 的 csv 加载到 h2o 中。

这引发了一个错误,

这表示内存不足错误

问题:如果 H2o 承诺加载大于其内存容量的数据集(如上面的博客引用所说的交换到磁盘机制),这是加载数据的正确方法吗?