问题标签 [h2o]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
r - R - 数据处理和可扩展代码
嗨,在过去的几天里,我遇到了一个小/大问题。
我有一个交易数据集,有 100 万行和两列(客户 ID 和产品 ID),我想将其转换为二进制矩阵。我使用了 reshape 和 spread 功能,但在这两种情况下,我都使用了 64mb 内存并且 Rstudio/R 出现故障。因为我只用了1个CPU,所以这个过程需要很多时间我的问题是,小数据和大数据之间的这种转变有什么新的进展?谁可以使用更多的cpu?
我搜索并找到了几个解决方案,但我需要专业意见
1 - 使用 Spark R?
2 - H20.ai 解决方案? http://h2o.ai/product/enterprise-support/
3 - 革命分析?http://www.revolutionanalytics.com/big-data
4 - 去云端?像微软天蓝色?
如果需要,我可以使用具有很多内核的虚拟机.. 但我需要知道进行此交易的流畅方式是什么
我的具体问题
我有这个data.frame(但有100万行)
我做到了:
这适用于一个小数据集.. 但是有 100 万行这需要很长时间(12 小时)并且会下降,因为我的最大内存是 64MB。有什么建议么?
python - h2o:区分本地和hadoop实例
Python客户端有没有办法区分H2O在本地启动的情况java -jar h2o.jar
和在hadoop上启动的情况hadoop -jar h2odriver.jar
?
python - h2o:遍历行
我知道 h2o 的内部数据模型是面向列的(即 H2OFrame 是 H2OVec 的集合)。但是,我想使用的库需要遍历 H2OFrame 的行。
有没有一种干净的方法来获取行上的迭代器,还是我需要求助于索引
我知道它会很慢,我会h2o.h2o.export_file
尽可能使用。
java - 我可以直接使用 Java 中的 H2O 库函数,还是 H2O 的唯一选择是 R?
我想在java中使用机器学习算法。使用 hadoop 的 Mahout 太慢,并且由于数据量大, weka 无法工作。那么是否可以从 Java 或任何其他可用于 Java 的更好选项中调用 H2O 库?
r - 在 R 的 H2O 深度学习中以编程方式访问 MSE
我正在使用 R 中的当前版本的 H2O,并遵循必须使用早期版本创建的“深度学习”示例。
我在调整旧示例代码时遇到的一个挑战是,我无法使用以下代码以编程方式访问 MSE 之类的交叉验证统计信息:
cvmodel@model$valid_sqr_error
在检查 H2O 模型对象的结构后,我可以在这里找到 MSE 和其他统计信息:
但我无法弄清楚以编程方式仅获取其中一个数字的语法:
r - 将“h2o”函数结果输出到向量
我有一个与此类似的问题(链接),除了我的问题是指 java 工具“h2o”及其与“r”的连接。
特别是我想将“h2o”对象分配给向量(或结构或数组)的一部分。我想循环并存储其中的几个而不必手动枚举。
我在链接上尝试了解决方案,但它不适用于“h2o”对象。
这是我更长的代码(疣和所有):
我得到的错误是:
我的意图是拥有一个 GBM 的列表/结构/数组,然后我可以针对整个数据集运行预测,并剔除信息量较少的那些。我正在尝试按照 Eugene Tuv 的步骤制作一个体面的“gbt 随机森林”。我没有他的密码。
问题:
是否有适当的方法将 h2o gbm 及其几个(数百个)伙伴打包到 r 中的单个商店中?
如果引用的对象在 java 中被丢弃,使这种方法不可行,是否有使用“gbm”库的可行变体?如果我最终不得不使用 gbm,与 h2o 的速度差异是多少?
r - h2o (un) 有序因子
嗨,我遇到了 h2o(3) 没有加载我的因素的问题。
问题类似于:无法将数据框转换为 h2o 对象
但是我尝试使用:myData<- data.frame(apply(myData, 2, factor, ordered=FALSE))
但错误仍然存在:Provided column type c("ordered", "enum") is unknown.
有没有其他方法可以确保 my factor
is unordered
?
编辑
这里是数据的一个子集
r - 从 h2o 性能中获取 mse 并将其保存在变量中。
我在 h2o(R) 中有一个模型。它的性能产生
给出输出
我想采用 MSE 并将其保存在变量中。我尝试使用生成混淆矩阵
但它会生成 NULL。
r - 在 R 中启动 h2o.init() 时出错
尝试启动 h2o 时出现错误。运行以下启动命令:
给出以下错误:
这不是特别有启发性。有没有人暗示有什么问题?系统上安装了 Java,但与这里的问题不同,我没有收到任何 Java 警告。
运行 system("java -version") 给出:
这是 sessionInfo() 的输出:
java - 在 h2o 中加载大于内存大小的数据
我正在尝试加载大于 h2o 中内存大小的数据。
H2o博客提到:A note on Bigger Data and GC: We do a user-mode swap-to-disk when the Java heap gets too full, i.e., you’re using more Big Data than physical DRAM. We won’t die with a GC death-spiral, but we will degrade to out-of-core speeds. We’ll go as fast as the disk will allow. I’ve personally tested loading a 12Gb dataset into a 2Gb (32bit) JVM; it took about 5 minutes to load the data, and another 5 minutes to run a Logistic Regression.
这是R
连接到的代码h2o 3.6.0.8
:
给
我试图将 169 MB 的 csv 加载到 h2o 中。
这引发了一个错误,
这表示内存不足错误。
问题:如果 H2o 承诺加载大于其内存容量的数据集(如上面的博客引用所说的交换到磁盘机制),这是加载数据的正确方法吗?