问题标签 [sparkling-water]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
786 浏览

r - CDH-5.10.2 上 RSparkling 中的连续“发送批量 UDP 字节时出现 IO 错误:java.net.ConnectException:连接被拒绝”

我正在尝试在离线 CDH-5.10.2 集群上执行此 RSparkling 示例。我的环境是:

  • 火花1.6.0;
  • 火花0.6.2;
  • 水 3.10.5.2;
  • rsparkling 0.2.1。

我使用自定义的苏打水 JAR,它基本上是 1.6.12 并应用了这个 PR

连接成功后:

我创建 H2O 上下文:

H2O 上下文创建需要几分钟(这是第一个奇怪的事情)。

创建后,应用程序会在几分钟内无响应(甚至 Spark 主 UI 也无法访问)。此时不打印 H2O 日志。

之后,会出现 H2O 日志,但它们主要包含以下消息:

并且在两者之间很少见:

然后快速执行以下与 H2O 无关的代码:

但是当 H2O 必须再次发挥作用时:

应用程序再次挂起(到目前为止,它已经挂起二十分钟左右)。

我尝试多次重新运行此代码并成功一次,但通常它只是挂起。如何解决这个问题?

我检查了 CPU、RAM 和磁盘使用情况,所有这些似乎都没有问题。也没有明显的网络问题。

更新 1。也许ConnectException只是 的结果K/V:Zero + POJO:661.8 MB + FREE:306.7 MB == MEM_MAX:968.5 MB。因此,我将尝试找出如何增加 H2O 的最大内存(以及为什么它首先低于 1 GB)。

0 投票
2 回答
746 浏览

python - 向 H2OFrame 中的每一行添加附加数据

我正在处理一个巨大的H2OFrame(~150gb,~2 亿行),我需要对其进行一些操作。更具体地说:我必须使用框架的ip列来查找每个 IP 的位置/城市名称,并将此信息添加到框架的每一行。

由于框架的巨大尺寸,将框架转换为普通的 python 对象并在本地操作它不是一种选择。所以我希望我能做的是使用我的 H2O 集群city_names使用原始框架的ip列创建一个新的 H2OFrame,然后合并两个框架。

我的问题有点类似于这里提出的问题,我从这个问题的答案中收集到的是,在 H2O 中没有办法对框架的每一行进行复杂的操作。真的是这样吗?H2OFrameapply函数毕竟只接受没有自定义方法的 lambda。

我想到的一个选择是使用Spark/Sparkling Water这种数据操作,然后将 spark 帧转换为 H2OFrame 以进行机器学习操作。但是,如果可能的话,我宁愿避免这种情况,只使用 H2O,尤其是因为这种转换会产生开销。

所以我想归结为:有没有办法只使用 H2O 来进行这种操作?如果没有,是否有另一种选择可以做到这一点而无需更改我的集群架构(即不必将我的 H2O 集群变成苏打水集群?)

0 投票
3 回答
62700 浏览

apache-spark - 如何设置 SPARK_HOME 变量?

按照链接http://h2o-release.s3.amazonaws.com/sparkling-water/rel-2.2/0/index.html中的苏打水步骤。

在终端中运行:

~/InstallFile/SparklingWater/sparkling-water-2.2.0$ bin/sparkling-shell --conf "spark.executor.memory=1g"

请为您的 Spark 安装设置 SPARK_HOME 变量

0 投票
1 回答
175 浏览

h2o - 如何使用 pysparkling 更改 Web UI 的端口

我只是想让 pysparkling 正常工作,但要更改 Web UI 的端口。我查看了帮助文件,它们似乎引用了旧版本的苏打水。目前正在运行

并在默认的 54321 端口上启动。我看到有一个 conf 对象要传入,但不确定如何正确设置它。任何帮助,将不胜感激。

0 投票
2 回答
381 浏览

ldap - 使用苏打水的 LDAP 身份验证

我们需要在苏打水中使用 LDAP 对用户进行身份验证。我们尝试使用苏打水 1.6.13 和 h2O 3.14.0.2 进行配置。下面是配置:

使用的命令: spark-submit --class water.SparklingWaterDriver --master yarn-client --num-executors 2 --driver-memory 6g --executor-memory 4g --executor-cores 2 --conf 'spark.dynamicAllocation。 enabled=false' --conf spark.ext.h2o.log.level=DEBUG --conf spark.ext.h2o.ldap.login=true --conf spark.ext.h2o.login.conf=/home/user/ ldap.conf /home/user/sparkling-water-1.6.13/assembly/build/libs/sparkling-water-assembly_2.10-1.6.13-all.jar

但我们面临一些问题。请在下面找到错误日志。将不胜感激任何帮助。 错误:

0 投票
0 回答
144 浏览

r - 无法重命名 sparklyr/rsparkling 中的火花表列名

深入了解 sparklyr/rsparkling,我有一些带有烦人列名的 spark 表,我想重命名它们。但我似乎做不到。

colnames(iristbl)=paste0('silly',1:5) ##我想重命名为傻名字

给:

dimnames(x) <- dn 中的错误:“dimnames”应用于非数组

有什么建议么?

0 投票
1 回答
286 浏览

python - 关闭 Sparkling Water 上下文时出现奇怪的回溯

要重现,请使用最简单的苏打水 Python 示例(https://github.com/h2oai/sparkling-water/blob/rel-2.2/py/examples/scripts/H2OContextInitDemo.py):

我已导出 SPARK_HOME 并指向 Spark 2.2.0。我有 MASTER="local[4]"。

我已经安装(除其他外):

现在,当我运行这个脚本时,我得到(在 Python 2.7 下):

为什么我会得到这些回溯?脚本的返回码为 0,在 Python 3 中也是如此,但会引发一些其他回溯。如何清理这个?

完整日志:https ://gist.github.com/anonymous/163fba371b2a419c2171f4aff83a1ff7

0 投票
1 回答
425 浏览

h2o - 创建上下文时在 h2o 中获取异常

当我尝试通过 Spark 1.6.3 创建 h2o contetx 时,我的代码出现以下异常

编辑:我附加了 POM 文件,它是一个长文件,但它显示了依赖关系。我认为我的依赖项应该有问题。

模型的创建由 livyclient 简单地完成,如下所示:

在上面的 InitializeH2OModel(ctx) 是一个复杂的函数,它生成用于训练模型的火花帧。prgram 可以正确运行,直到启动 h2o 上下文“H2OContext h2oContext = H2OContext.getOrCreate(ctx.sc().sc());”的行

我添加到 livy 的配置参数如下:

我在 HDP 2.6.2 上以 Spark 2.1.1 的集群模式运行。

0 投票
1 回答
152 浏览

h2o - H20 Sparkling 中的节点是否可抢占?

我正在运行Sparkling water超过36 个 Spark executors。由于 Yarn 的调度,一些 executor 会先发制人,稍后再回来。总体而言,大部分时间有36 个执行者,但并非总是如此。

到目前为止,我的经验是,一旦有1 个执行程序失败,整个H2o实例就会停止,即使丢失的执行程序稍后恢复运行。我想知道这是否是Sparkling-water行为方式?还是需要开启一些抢占能力?

有人对此有所了解吗?

0 投票
1 回答
991 浏览

apache-spark - 苏打水无法在简单的火花项目中创建 h2oContext

我第一次在运行 spark 2.2 的独立集群上设置 Sparkling Water。我之前通过 R(使用 rsparkling + sparklyr + h2o)在这样的集群上运行了 Sparkling Water,但是在将其设置为 spark 应用程序(在 scala 中)时遇到问题。

该应用程序是使用 Maven 构建的,因此我添加了最新的苏打水依赖项:

那么app代码如下:

然后我编译 fat jar 以发送到集群,但是 h2oContext 永远不会被创建并且 SparkContext 被关闭exit code 255。应用程序在创建 h2o 上下文之前退出且没有错误代码 - 唯一可能有用的消息是IP address not found on this machine.

我已经尝试使用 Sparkling Water 版本 2.2.0 并遇到相同的问题,还尝试为sparkling-water-mland添加依赖sparkling-water-repl项,以及添加所有 h2o 核心依赖项(尽管假设这些不需要,因为它们已集成到苏打水中?) . 请参阅下面的日志文件。