问题标签 [h2o]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
r - 使用 r 将压缩的 csv 导入“h2o”
“h2o”包是一个有趣的 ML java 工具,可通过 R 访问。用于访问“h2o”的 R 包称为“ h2o ”。
输入途径之一是告诉“h2o”一个 csv 文件在哪里,然后让“h2o”上传原始 CSV。仅指出文件夹并告诉“h2o”使用h2o.importFolder
命令导入“其中的所有内容”会更有效。
有没有办法指出“gzip”或“bzip”csv 文件的文件夹并让“h2o”导入它们?
根据此链接(此处),h2o 可以导入压缩文件。我只是看不到为 importFolder 方法指定此方法的方法。
导入压缩表格是快还是慢?如果我有另一个产生输出的程序,如果它们被压缩,它是否可以节省我在 h2o 导入过程中的时间?如果它们是原始文本?指南和性能最佳实践值得赞赏。
一如既往,征求意见、建议和反馈。
r - 为什么输出 h2o.kmeans 函数中没有簇对象?
我想使用包中的h2o.kmeans
功能h2o
。这是我的代码
输出是
为什么没有cluster
包含整数向量的对象(从 1:k 开始),表示每个点分配到的集群?
java - R H2O - 内存管理
我正在尝试通过 R 使用 H2O 来使用一个大型数据集(约 10GB)的子集构建多个模型。这些数据是一年的数据,我正在尝试构建 51 个模型(即在第 1 周进行训练,在第 2 周进行预测等),每周大约有 1.5-250 万行,包含 8 个变量。
我已经在循环中完成了这个,我知道这并不总是 R 中的最佳方式。我发现的另一个问题是 H2O 实体会累积先前的对象,所以我创建了一个函数来删除除主要数据之外的所有对象放。
该脚本运行良好一段时间然后崩溃 - 通常抱怨内存不足并交换到磁盘。
这里有一些伪代码来描述这个过程
我的问题是,如果有的话,在独立实体中管理数据和内存的正确方法是什么(这不是在 hadoop 或集群上运行 - 只是一个大型 EC2 实例(~ 64gb RAM + 12 CPU))过程?我是否应该在每次循环后杀死并重新创建 H2O 实体(这是原始过程,但每次从文件中读取数据每次迭代增加约 10 分钟)?每次循环后是否有适当的方法来垃圾收集或释放内存?
任何建议,将不胜感激。
r - 如何在 H2O 环境中使用 h2o.addFunction 访问 R 用户定义函数?
我正在使用 h2o 2.8.4.4 的 r 包。根据文档功能 h2o.addFunction 在 h2o 中推送用户定义的函数和现有的 R 函数。例如
现在,如何从 R 中或从 h2o 浏览器 UI 访问此功能 simplefun,因为即使使用 list 命令我也无法找到该功能
输出:列表()
java - R H2O 轮询错误消息
我正在尝试通过 R 在 H2O 中运行 gbm 模型并得到以下错误之一:
或者这个版本:
这是导致错误的行:
关于导致此错误的任何建议?
编辑:
我一直在尝试诊断 csv 文件本身是否存在问题,看来这可能是问题所在。我最终在 python 中编写了一个脚本,以将大文件按 week_number 分解为单个 csv 文件。通过读取文件大约 2/3 的方式我得到一个 NULL 字节异常错误。我仍在努力寻找解决此问题的方法。
r - 在 Windows 上使用 RStudio 初始化 H2O
我是 H2O 新手,在 RStudio(64 位 Windows 7 中的 R 3.2 版本)中初始化 H2O 以进行税务欺诈预测建模时遇到了一些麻烦。我启动 H2O 的步骤如下:
- 我安装了 H2O 最新的稳定版本(“Noether 2.8.4.4”来自(http://0xdata.com/download/)
- 解压缩后,我从终端启动了 H2O:
cd Downloads
cd h2o-2.8.4.4
java -jar h2o.jar
- 我在 Google Chrome 中指向 H2O URL:http://localhost:54321/
- 在 Rstudio 中运行脚本以开始演示:
library(h2o,lib.loc="C:/Program Files/RRO/R-3.1.2/library")
localH2O = h2o.init(ip = "localhost", port = 54321, startH2O = TRUE)
但是在这第四步之后,我收到了以下消息:
对于我做错了什么,我将不胜感激。
http - 安装 HTTP /2 网络服务器
我正在尝试对 HTTP/1.1 和 HTTP/2 进行一些性能分析。但是我没有成功安装后一个。我需要来自同一实现的两种协议(例如 H2O)。我在安装 H2O 时遇到的第一个问题是 ubuntu 14.04 中的 openssl 版本。我按照1的建议将版本更新为 1.0.2 。然后我收到以下错误消息:
任何人都可以在这里帮助我。
r - R 深度学习,多输出
是否有可能创建一个提供多个输出的深度学习网络?这样做的原因也是为了尝试捕捉输出之间的关系。在给出的示例中,我只能创建一个输出。
r - H2O 不能从 H2OParsedData 中子集列
我将 h2o(2.8.4.4) 用于 R 中的 hadoop。我想从数据框中获取一些列,其中包含 720512 行和 788 列。我写这样的东西:
我究竟做错了什么?