r - CDH-5.10.2 上 RSparkling 中的连续“发送批量 UDP 字节时出现 IO 错误：java.net.ConnectException：连接被拒绝”

Question

我正在尝试在离线 CDH-5.10.2 集群上执行此 RSparkling 示例。我的环境是：

火花1.6.0；
火花0.6.2；
水 3.10.5.2；
rsparkling 0.2.1。

我使用自定义的苏打水 JAR，它基本上是 1.6.12 并应用了这个 PR：

options(rsparkling.sparklingwater.location = "/opt/h2o/sparkling-water-1.6.13-SNAPSHOT/assembly/build/libs/sparkling-water-assembly_2.10-1.6.13-SNAPSHOT-all.jar")

连接成功后：

config <- spark_config()
config$spark.dynamicAllocation.enabled <- "false"
config$spark.driver.memory <- "6g"
config$spark.executor.memory <- "6g"
config$spark.executor.heartbeatInterval <- "20s"

sc <- spark_connect(master = "yarn-client", config = config)

我创建 H2O 上下文：

h2o_context(sc)

H2O 上下文创建需要几分钟（这是第一个奇怪的事情）。

创建后，应用程序会在几分钟内无响应（甚至 Spark 主 UI 也无法访问）。此时不打印 H2O 日志。

之后，会出现 H2O 日志，但它们主要包含以下消息：

Got IO error when sending batch UDP bytes: java.net.ConnectException: Connection refused

并且在两者之间很少见：

WARN: Unblock allocations; cache below desired, but also OOM: OOM, (K/V:Zero   + POJO:661.8 MB + FREE:306.7 MB == MEM_MAX:968.5 MB), desiredKV=121.1 MB OOM!

然后快速执行以下与 H2O 无关的代码：

flights_tbl <- copy_to(sc, nycflights13::flights, "flights")
airports_tbl <- copy_to(sc, nycflights13::airports, "airports")
airlines_tbl <- copy_to(sc, nycflights13::airlines, "airlines")
model_tbl <- flights_tbl %>%
  filter(!is.na(arr_delay) & !is.na(dep_delay) & !is.na(distance)) %>%
  filter(dep_delay > 15 & dep_delay < 240) %>%
  filter(arr_delay > -60 & arr_delay < 360) %>%
  left_join(airlines_tbl, by = c("carrier" = "carrier")) %>%
  mutate(gain = dep_delay - arr_delay) %>%
  select(origin, dest, carrier, airline = name, distance, dep_delay, arr_delay, gain)

但是当 H2O 必须再次发挥作用时：

df_hex <- as_h2o_frame(sc,model_tbl,name="model_hex",FALSE)

应用程序再次挂起（到目前为止，它已经挂起二十分钟左右）。

我尝试多次重新运行此代码并成功一次，但通常它只是挂起。如何解决这个问题？

我检查了 CPU、RAM 和磁盘使用情况，所有这些似乎都没有问题。也没有明显的网络问题。

更新 1。也许ConnectException只是的结果K/V:Zero + POJO:661.8 MB + FREE:306.7 MB == MEM_MAX:968.5 MB。因此，我将尝试找出如何增加 H2O 的最大内存（以及为什么它首先低于 1 GB）。

score 0 · Accepted Answer

根本原因是内存分配不足sparklyr，默认的 1 GB 内存对于在同一个 JVM 中执行的 H2O 客户端来说是不够的。这些代码行节省了一天的时间：

config$`sparklyr.shell.driver-memory` <- "6g"
config$`sparklyr.shell.executor-memory` <- "6g"

r - CDH-5.10.2 上 RSparkling 中的连续“发送批量 UDP 字节时出现 IO 错误：java.net.ConnectException：连接被拒绝”

1 回答 1

Related

Reference