1

我有一个使用 h2o.randomForest() 的随机森林模型。

现在,我需要使用 h2o.predict() 对大量数据进行评分。由于一些限制,我无法一次对所有数据进行评分。所以基本上我想在一个循环中对不同的数据集进行评分。所以,为了加快这个过程,我想通过在 2 个不同的 R 实例中运行相同的脚本来同时对多个数据集进行评分。但是当我这样做时,一个实例运行良好,但其他实例给我以下错误。有时这两个实例都会出现此错误。

Error in .h2o.__checkConnectionHealth(conn) : 
 H2O connection has been severed. Cannot connect to instance at http://127.0.0.1:54321/
Failed to connect to 127.0.0.1 port 54321: Address already in use

上面的错误甚至不一致,有时我得到它有时我没有。

我正在初始化 h2o 并在所有 R 实例中进行如下预测。

h2oServer = h2o.init(nthreads = -1, max_mem_size = '8g')
h2.predict(model, test_data)

我怎样才能做到这一点?如何通过 2 个不同的 R 实例使用 h2o 云?

谢谢,

4

1 回答 1

1

通常,您尝试使用的方法不会加快处理速度,因为对单个数据集进行评分会占用 CPU,多次调用只会产生不必要的争用。

此外,您只能从 R 中启动单个 H2O 实例,如果您尝试启动多个实例,则可以从命令行 (java -jar h2o.jar) 执行此操作。

于 2015-09-30T23:09:52.783 回答