问题标签 [h2o]

问问题

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

1783 问题

0 投票

2 回答

129 浏览

r - R - 数据处理和可扩展代码

嗨，在过去的几天里，我遇到了一个小/大问题。

我有一个交易数据集，有 100 万行和两列（客户 ID 和产品 ID），我想将其转换为二进制矩阵。我使用了 reshape 和 spread 功能，但在这两种情况下，我都使用了 64mb 内存并且 Rstudio/R 出现故障。因为我只用了1个CPU，所以这个过程需要很多时间我的问题是，小数据和大数据之间的这种转变有什么新的进展？谁可以使用更多的cpu？

我搜索并找到了几个解决方案，但我需要专业意见

1 - 使用 Spark R？

2 - H20.ai 解决方案？ http://h2o.ai/product/enterprise-support/

3 - 革命分析？http://www.revolutionanalytics.com/big-data

4 - 去云端？像微软天蓝色？

如果需要，我可以使用具有很多内核的虚拟机.. 但我需要知道进行此交易的流畅方式是什么

我的具体问题

我有这个data.frame（但有100万行）

我做到了：

这适用于一个小数据集.. 但是有 100 万行这需要很长时间（12 小时）并且会下降，因为我的最大内存是 64MB。有什么建议么？

2015-11-19T10:54:12.807

0 投票

1 回答

63 浏览

python - h2o：区分本地和hadoop实例

Python客户端有没有办法区分H2O在本地启动的情况java -jar h2o.jar和在hadoop上启动的情况hadoop -jar h2odriver.jar？

python hadoop h2o

2015-11-23T16:31:25.103

0 投票

2 回答

1340 浏览

python - h2o：遍历行

我知道 h2o 的内部数据模型是面向列的（即 H2OFrame 是 H2OVec 的集合）。但是，我想使用的库需要遍历 H2OFrame 的行。

有没有一种干净的方法来获取行上的迭代器，还是我需要求助于索引

我知道它会很慢，我会h2o.h2o.export_file尽可能使用。

python h2o

2015-11-23T16:46:48.743

0 投票

2 回答

523 浏览

java - 我可以直接使用 Java 中的 H2O 库函数，还是 H2O 的唯一选择是 R？

我想在java中使用机器学习算法。使用 hadoop 的 Mahout 太慢，并且由于数据量大， weka 无法工作。那么是否可以从 Java 或任何其他可用于 Java 的更好选项中调用 H2O 库？

java r machine-learning h2o

2015-11-25T06:35:14.217

0 投票

1 回答

100 浏览

r - 在 R 的 H2O 深度学习中以编程方式访问 MSE

我正在使用 R 中的当前版本的 H2O，并遵循必须使用早期版本创建的“深度学习”示例。

我在调整旧示例代码时遇到的一个挑战是，我无法使用以下代码以编程方式访问 MSE 之类的交叉验证统计信息：

cvmodel@model$valid_sqr_error

在检查 H2O 模型对象的结构后，我可以在这里找到 MSE 和其他统计信息：

但我无法弄清楚以编程方式仅获取其中一个数字的语法：

r h2o

2015-11-25T14:55:21.580

0 投票

1 回答

836 浏览

r - 将“h2o”函数结果输出到向量

我有一个与此类似的问题（链接），除了我的问题是指 java 工具“h2o”及其与“r”的连接。

特别是我想将“h2o”对象分配给向量（或结构或数组）的一部分。我想循环并存储其中的几个而不必手动枚举。

我在链接上尝试了解决方案，但它不适用于“h2o”对象。

这是我更长的代码（疣和所有）：

我得到的错误是：

我的意图是拥有一个 GBM 的列表/结构/数组，然后我可以针对整个数据集运行预测，并剔除信息量较少的那些。我正在尝试按照 Eugene Tuv 的步骤制作一个体面的“gbt 随机森林”。我没有他的密码。

问题：
是否有适当的方法将 h2o gbm 及其几个（数百个）伙伴打包到 r 中的单个商店中？

如果引用的对象在 java 中被丢弃，使这种方法不可行，是否有使用“gbm”库的可行变体？如果我最终不得不使用 gbm，与 h2o 的速度差异是多少？

r gbm h2o

2015-11-25T20:28:52.810

0 投票

1 回答

396 浏览

r - h2o (un) 有序因子

嗨，我遇到了 h2o(3) 没有加载我的因素的问题。

问题类似于：无法将数据框转换为 h2o 对象

但是我尝试使用：myData<- data.frame(apply(myData, 2, factor, ordered=FALSE))但错误仍然存在：Provided column type c("ordered", "enum") is unknown.

有没有其他方法可以确保 my factoris unordered？

编辑

这里是数据的一个子集

r r-factor unordered h2o

2015-11-27T19:54:29.203

0 投票

1 回答

822 浏览

r - 从 h2o 性能中获取 mse 并将其保存在变量中。

我在 h2o(R) 中有一个模型。它的性能产生

给出输出

我想采用 MSE 并将其保存在变量中。我尝试使用生成混淆矩阵

但它会生成 NULL。

r machine-learning h2o

2015-12-02T10:17:25.570

0 投票

1 回答

3706 浏览

r - 在 R 中启动 h2o.init() 时出错

尝试启动 h2o 时出现错误。运行以下启动命令：

给出以下错误：

这不是特别有启发性。有没有人暗示有什么问题？系统上安装了 Java，但与这里的问题不同，我没有收到任何 Java 警告。

运行 system("java -version") 给出：

这是 sessionInfo() 的输出：

r h2o

2015-12-03T08:18:53.287

0 投票

1 回答

2711 浏览

java - 在 h2o 中加载大于内存大小的数据

我正在尝试加载大于 h2o 中内存大小的数据。

H2o博客提到：A note on Bigger Data and GC: We do a user-mode swap-to-disk when the Java heap gets too full, i.e., you’re using more Big Data than physical DRAM. We won’t die with a GC death-spiral, but we will degrade to out-of-core speeds. We’ll go as fast as the disk will allow. I’ve personally tested loading a 12Gb dataset into a 2Gb (32bit) JVM; it took about 5 minutes to load the data, and another 5 minutes to run a Logistic Regression.

这是R连接到的代码h2o 3.6.0.8：

给

我试图将 169 MB 的 csv 加载到 h2o 中。

这引发了一个错误，

这表示内存不足错误。

问题：如果 H2o 承诺加载大于其内存容量的数据集（如上面的博客引用所说的交换到磁盘机制），这是加载数据的正确方法吗？

java r garbage-collection out-of-memory h2o

2015-12-04T07:10:29.670

1 2 3 4 5 6 7 8 9 10

问题标签 [h2o]

编辑

Reference