0

我正在尝试运行 h2o.automl() 但它一直失败,因为我的 ncpus 用完了。

我通过请求 47 个线程来启动我的 h20 会话:h2o.init(nthreads=47)

我在开始时提供了足够数量的 ncpus 和内存:

R连接H2O集群: H2O集群正常运行时间:2秒286毫秒 H2O集群时区:欧洲/伦敦 H2O数据解析时区:UTC H2O集群版本:3.18.0.4 H2O集群版本年龄:18天 H2O集群名称:H2O_started_from_R_cmorgan1_gvi181 H2O集群节点总数:1 H2O 集群总内存:26.67 GB H2O 集群总内核:40 H2O 集群允许内核:40 H2O 集群健康:TRUE H2O 连接 ip:localhost H2O 连接端口:54321 H2O 连接代理:NA H2O 内部安全:FALSE H2O API扩展:XGBoost、Algos、AutoML、Core V3、Core V4 R 版本:R 版本 3.4.1 (2017-06-30)

但是,过了一段时间(完成度为 38%)后,它会中断并告诉我我没有足够的 ncpus。

|=================================================== ======================| 100% |==== |======= |=========|==========|============= =
|================ |=================|===========|= ==
|============================
| 38%=>> PBS:作业被杀:ncpus 33.43 超出限制 32(总和)

============================================

    Job resource usage summary

             Memory (GB)    NCPUs  Requested  :        45            48  Used       :        12 (peak)  36.00 (ave)

有没有人遇到过这个问题,你有解决办法吗?我不相信我的数据大小异常,它有 29 个缩放参数和 94,000 行数据。

提前感谢,

4

1 回答 1

2

这与 H2O 无关。

这里的线索是消息“PBS:工作被杀”。

此处的少量互联网搜索表明您正在以某种方式使用 PBS 调度程序(https://en.wikipedia.org/wiki/Portable_Batch_System),这正在扼杀您的工作。(我以前从未真正见过任何人使用 PBS,但根据上述信息,这一切似乎都很可能。)

由于 PBS 告诉您您的限制是 32 个核心,因此我建议您尝试指定一个小于该值的值。也许使用h2o.init(nthreads=30)PBS 不会再杀死你的进程了。

于 2018-03-27T10:48:34.330 回答