“sparkling-water”的相关标签问题

0 投票

1 回答

786 浏览

r - CDH-5.10.2 上 RSparkling 中的连续“发送批量 UDP 字节时出现 IO 错误：java.net.ConnectException：连接被拒绝”

我正在尝试在离线 CDH-5.10.2 集群上执行此 RSparkling 示例。我的环境是：

火花1.6.0；
火花0.6.2；
水 3.10.5.2；
rsparkling 0.2.1。

我使用自定义的苏打水 JAR，它基本上是 1.6.12 并应用了这个 PR：

连接成功后：

我创建 H2O 上下文：

H2O 上下文创建需要几分钟（这是第一个奇怪的事情）。

创建后，应用程序会在几分钟内无响应（甚至 Spark 主 UI 也无法访问）。此时不打印 H2O 日志。

之后，会出现 H2O 日志，但它们主要包含以下消息：

并且在两者之间很少见：

然后快速执行以下与 H2O 无关的代码：

但是当 H2O 必须再次发挥作用时：

应用程序再次挂起（到目前为止，它已经挂起二十分钟左右）。

我尝试多次重新运行此代码并成功一次，但通常它只是挂起。如何解决这个问题？

我检查了 CPU、RAM 和磁盘使用情况，所有这些似乎都没有问题。也没有明显的网络问题。

更新 1。也许ConnectException只是的结果K/V:Zero + POJO:661.8 MB + FREE:306.7 MB == MEM_MAX:968.5 MB。因此，我将尝试找出如何增加 H2O 的最大内存（以及为什么它首先低于 1 GB）。

2017-09-07T17:40:11.690

0 投票

2 回答

746 浏览

python - 向 H2OFrame 中的每一行添加附加数据

我正在处理一个巨大的H2OFrame（~150gb，~2 亿行），我需要对其进行一些操作。更具体地说：我必须使用框架的ip列来查找每个 IP 的位置/城市名称，并将此信息添加到框架的每一行。

由于框架的巨大尺寸，将框架转换为普通的 python 对象并在本地操作它不是一种选择。所以我希望我能做的是使用我的 H2O 集群city_names使用原始框架的ip列创建一个新的 H2OFrame，然后合并两个框架。

我的问题有点类似于这里提出的问题，我从这个问题的答案中收集到的是，在 H2O 中没有办法对框架的每一行进行复杂的操作。真的是这样吗？H2OFrame的apply函数毕竟只接受没有自定义方法的 lambda。

我想到的一个选择是使用Spark/Sparkling Water这种数据操作，然后将 spark 帧转换为 H2OFrame 以进行机器学习操作。但是，如果可能的话，我宁愿避免这种情况，只使用 H2O，尤其是因为这种转换会产生开销。

所以我想归结为：有没有办法只使用 H2O 来进行这种操作？如果没有，是否有另一种选择可以做到这一点而无需更改我的集群架构（即不必将我的 H2O 集群变成苏打水集群？）

python h2o sparkling-water

2017-09-20T08:30:56.093

0 投票

3 回答

62700 浏览

apache-spark - 如何设置 SPARK_HOME 变量？

按照链接http://h2o-release.s3.amazonaws.com/sparkling-water/rel-2.2/0/index.html中的苏打水步骤。

在终端中运行：

~/InstallFile/SparklingWater/sparkling-water-2.2.0$ bin/sparkling-shell --conf "spark.executor.memory=1g"

请为您的 Spark 安装设置 SPARK_HOME 变量

apache-spark h2o sparkling-water

2017-10-06T20:42:52.650

0 投票

1 回答

175 浏览

h2o - 如何使用 pysparkling 更改 Web UI 的端口

我只是想让 pysparkling 正常工作，但要更改 Web UI 的端口。我查看了帮助文件，它们似乎引用了旧版本的苏打水。目前正在运行

并在默认的 54321 端口上启动。我看到有一个 conf 对象要传入，但不确定如何正确设置它。任何帮助，将不胜感激。

h2o sparkling-water

2017-10-18T16:28:14.770

0 投票

2 回答

381 浏览

ldap - 使用苏打水的 LDAP 身份验证

我们需要在苏打水中使用 LDAP 对用户进行身份验证。我们尝试使用苏打水 1.6.13 和 h2O 3.14.0.2 进行配置。下面是配置：

使用的命令： spark-submit --class water.SparklingWaterDriver --master yarn-client --num-executors 2 --driver-memory 6g --executor-memory 4g --executor-cores 2 --conf 'spark.dynamicAllocation。 enabled=false' --conf spark.ext.h2o.log.level=DEBUG --conf spark.ext.h2o.ldap.login=true --conf spark.ext.h2o.login.conf=/home/user/ ldap.conf /home/user/sparkling-water-1.6.13/assembly/build/libs/sparkling-water-assembly_2.10-1.6.13-all.jar

但我们面临一些问题。请在下面找到错误日志。将不胜感激任何帮助。 错误：

ldap h2o sparkling-water

2017-10-25T05:59:38.380

0 投票

0 回答

144 浏览

r - 无法重命名 sparklyr/rsparkling 中的火花表列名

深入了解 sparklyr/rsparkling，我有一些带有烦人列名的 spark 表，我想重命名它们。但我似乎做不到。

colnames(iristbl)=paste0('silly',1:5) ##我想重命名为傻名字

给：

dimnames(x) <- dn 中的错误：“dimnames”应用于非数组

有什么建议么？

r sparklyr sparkling-water

2017-11-02T04:41:19.517

0 投票

1 回答

286 浏览

python - 关闭 Sparkling Water 上下文时出现奇怪的回溯

要重现，请使用最简单的苏打水 Python 示例（https://github.com/h2oai/sparkling-water/blob/rel-2.2/py/examples/scripts/H2OContextInitDemo.py）：

我已导出 SPARK_HOME 并指向 Spark 2.2.0。我有 MASTER="local[4]"。

我已经安装（除其他外）：

现在，当我运行这个脚本时，我得到（在 Python 2.7 下）：

为什么我会得到这些回溯？脚本的返回码为 0，在 Python 3 中也是如此，但会引发一些其他回溯。如何清理这个？

完整日志：https ://gist.github.com/anonymous/163fba371b2a419c2171f4aff83a1ff7

python h2o sparkling-water

2017-11-02T16:50:53.357

0 投票

1 回答

425 浏览

h2o - 创建上下文时在 h2o 中获取异常

当我尝试通过 Spark 1.6.3 创建 h2o contetx 时，我的代码出现以下异常

编辑：我附加了 POM 文件，它是一个长文件，但它显示了依赖关系。我认为我的依赖项应该有问题。

模型的创建由 livyclient 简单地完成，如下所示：

在上面的 InitializeH2OModel(ctx) 是一个复杂的函数，它生成用于训练模型的火花帧。prgram 可以正确运行，直到启动 h2o 上下文“H2OContext h2oContext = H2OContext.getOrCreate(ctx.sc().sc());”的行

我添加到 livy 的配置参数如下：

我在 HDP 2.6.2 上以 Spark 2.1.1 的集群模式运行。

h2o sparkling-water

2017-11-06T04:10:20.960

0 投票

1 回答

152 浏览

h2o - H20 Sparkling 中的节点是否可抢占？

我正在运行Sparkling water超过36 个 Spark executors。由于 Yarn 的调度，一些 executor 会先发制人，稍后再回来。总体而言，大部分时间有36 个执行者，但并非总是如此。

到目前为止，我的经验是，一旦有1 个执行程序失败，整个H2o实例就会停止，即使丢失的执行程序稍后恢复运行。我想知道这是否是Sparkling-water行为方式？还是需要开启一些抢占能力？

有人对此有所了解吗？

h2o sparkling-water

2017-11-09T11:45:26.787

0 投票

1 回答

991 浏览

apache-spark - 苏打水无法在简单的火花项目中创建 h2oContext

我第一次在运行 spark 2.2 的独立集群上设置 Sparkling Water。我之前通过 R（使用 rsparkling + sparklyr + h2o）在这样的集群上运行了 Sparkling Water，但是在将其设置为 spark 应用程序（在 scala 中）时遇到问题。

该应用程序是使用 Maven 构建的，因此我添加了最新的苏打水依赖项：

那么app代码如下：

然后我编译 fat jar 以发送到集群，但是 h2oContext 永远不会被创建并且 SparkContext 被关闭exit code 255。应用程序在创建 h2o 上下文之前退出且没有错误代码 - 唯一可能有用的消息是IP address not found on this machine.

我已经尝试使用 Sparkling Water 版本 2.2.0 并遇到相同的问题，还尝试为sparkling-water-mland添加依赖sparkling-water-repl项，以及添加所有 h2o 核心依赖项（尽管假设这些不需要，因为它们已集成到苏打水中？） . 请参阅下面的日志文件。

apache-spark h2o sparkling-water

2017-11-17T10:30:38.417

问题标签 [sparkling-water]

Reference