问题标签 [sparkling-water]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
r - CDH-5.10.2 上 RSparkling 中的连续“发送批量 UDP 字节时出现 IO 错误:java.net.ConnectException:连接被拒绝”
我正在尝试在离线 CDH-5.10.2 集群上执行此 RSparkling 示例。我的环境是:
- 火花1.6.0;
- 火花0.6.2;
- 水 3.10.5.2;
- rsparkling 0.2.1。
我使用自定义的苏打水 JAR,它基本上是 1.6.12 并应用了这个 PR:
连接成功后:
我创建 H2O 上下文:
H2O 上下文创建需要几分钟(这是第一个奇怪的事情)。
创建后,应用程序会在几分钟内无响应(甚至 Spark 主 UI 也无法访问)。此时不打印 H2O 日志。
之后,会出现 H2O 日志,但它们主要包含以下消息:
并且在两者之间很少见:
然后快速执行以下与 H2O 无关的代码:
但是当 H2O 必须再次发挥作用时:
应用程序再次挂起(到目前为止,它已经挂起二十分钟左右)。
我尝试多次重新运行此代码并成功一次,但通常它只是挂起。如何解决这个问题?
我检查了 CPU、RAM 和磁盘使用情况,所有这些似乎都没有问题。也没有明显的网络问题。
更新 1。也许ConnectException
只是 的结果K/V:Zero + POJO:661.8 MB + FREE:306.7 MB == MEM_MAX:968.5 MB
。因此,我将尝试找出如何增加 H2O 的最大内存(以及为什么它首先低于 1 GB)。
python - 向 H2OFrame 中的每一行添加附加数据
我正在处理一个巨大的H2OFrame
(~150gb,~2 亿行),我需要对其进行一些操作。更具体地说:我必须使用框架的ip
列来查找每个 IP 的位置/城市名称,并将此信息添加到框架的每一行。
由于框架的巨大尺寸,将框架转换为普通的 python 对象并在本地操作它不是一种选择。所以我希望我能做的是使用我的 H2O 集群city_names
使用原始框架的ip
列创建一个新的 H2OFrame,然后合并两个框架。
我的问题有点类似于这里提出的问题,我从这个问题的答案中收集到的是,在 H2O 中没有办法对框架的每一行进行复杂的操作。真的是这样吗?H2OFrame
的apply
函数毕竟只接受没有自定义方法的 lambda。
我想到的一个选择是使用Spark/Sparkling Water
这种数据操作,然后将 spark 帧转换为 H2OFrame 以进行机器学习操作。但是,如果可能的话,我宁愿避免这种情况,只使用 H2O,尤其是因为这种转换会产生开销。
所以我想归结为:有没有办法只使用 H2O 来进行这种操作?如果没有,是否有另一种选择可以做到这一点而无需更改我的集群架构(即不必将我的 H2O 集群变成苏打水集群?)
apache-spark - 如何设置 SPARK_HOME 变量?
按照链接http://h2o-release.s3.amazonaws.com/sparkling-water/rel-2.2/0/index.html中的苏打水步骤。
在终端中运行:
~/InstallFile/SparklingWater/sparkling-water-2.2.0$ bin/sparkling-shell --conf "spark.executor.memory=1g"
请为您的 Spark 安装设置 SPARK_HOME 变量
h2o - 如何使用 pysparkling 更改 Web UI 的端口
我只是想让 pysparkling 正常工作,但要更改 Web UI 的端口。我查看了帮助文件,它们似乎引用了旧版本的苏打水。目前正在运行
并在默认的 54321 端口上启动。我看到有一个 conf 对象要传入,但不确定如何正确设置它。任何帮助,将不胜感激。
ldap - 使用苏打水的 LDAP 身份验证
我们需要在苏打水中使用 LDAP 对用户进行身份验证。我们尝试使用苏打水 1.6.13 和 h2O 3.14.0.2 进行配置。下面是配置:
使用的命令: spark-submit --class water.SparklingWaterDriver --master yarn-client --num-executors 2 --driver-memory 6g --executor-memory 4g --executor-cores 2 --conf 'spark.dynamicAllocation。 enabled=false' --conf spark.ext.h2o.log.level=DEBUG --conf spark.ext.h2o.ldap.login=true --conf spark.ext.h2o.login.conf=/home/user/ ldap.conf /home/user/sparkling-water-1.6.13/assembly/build/libs/sparkling-water-assembly_2.10-1.6.13-all.jar
但我们面临一些问题。请在下面找到错误日志。将不胜感激任何帮助。 错误:
r - 无法重命名 sparklyr/rsparkling 中的火花表列名
深入了解 sparklyr/rsparkling,我有一些带有烦人列名的 spark 表,我想重命名它们。但我似乎做不到。
colnames(iristbl)=paste0('silly',1:5) ##我想重命名为傻名字
给:
dimnames(x) <- dn 中的错误:“dimnames”应用于非数组
有什么建议么?
python - 关闭 Sparkling Water 上下文时出现奇怪的回溯
要重现,请使用最简单的苏打水 Python 示例(https://github.com/h2oai/sparkling-water/blob/rel-2.2/py/examples/scripts/H2OContextInitDemo.py):
我已导出 SPARK_HOME 并指向 Spark 2.2.0。我有 MASTER="local[4]"。
我已经安装(除其他外):
现在,当我运行这个脚本时,我得到(在 Python 2.7 下):
为什么我会得到这些回溯?脚本的返回码为 0,在 Python 3 中也是如此,但会引发一些其他回溯。如何清理这个?
完整日志:https ://gist.github.com/anonymous/163fba371b2a419c2171f4aff83a1ff7
h2o - 创建上下文时在 h2o 中获取异常
当我尝试通过 Spark 1.6.3 创建 h2o contetx 时,我的代码出现以下异常
编辑:我附加了 POM 文件,它是一个长文件,但它显示了依赖关系。我认为我的依赖项应该有问题。
模型的创建由 livyclient 简单地完成,如下所示:
在上面的 InitializeH2OModel(ctx) 是一个复杂的函数,它生成用于训练模型的火花帧。prgram 可以正确运行,直到启动 h2o 上下文“H2OContext h2oContext = H2OContext.getOrCreate(ctx.sc().sc());”的行
我添加到 livy 的配置参数如下:
我在 HDP 2.6.2 上以 Spark 2.1.1 的集群模式运行。
h2o - H20 Sparkling 中的节点是否可抢占?
我正在运行Sparkling water
超过36 个 Spark executors。由于 Yarn 的调度,一些 executor 会先发制人,稍后再回来。总体而言,大部分时间有36 个执行者,但并非总是如此。
到目前为止,我的经验是,一旦有1 个执行程序失败,整个H2o
实例就会停止,即使丢失的执行程序稍后恢复运行。我想知道这是否是Sparkling-water
行为方式?还是需要开启一些抢占能力?
有人对此有所了解吗?
apache-spark - 苏打水无法在简单的火花项目中创建 h2oContext
我第一次在运行 spark 2.2 的独立集群上设置 Sparkling Water。我之前通过 R(使用 rsparkling + sparklyr + h2o)在这样的集群上运行了 Sparkling Water,但是在将其设置为 spark 应用程序(在 scala 中)时遇到问题。
该应用程序是使用 Maven 构建的,因此我添加了最新的苏打水依赖项:
那么app代码如下:
然后我编译 fat jar 以发送到集群,但是 h2oContext 永远不会被创建并且 SparkContext 被关闭exit code 255
。应用程序在创建 h2o 上下文之前退出且没有错误代码 - 唯一可能有用的消息是IP address not found on this machine
.
我已经尝试使用 Sparkling Water 版本 2.2.0 并遇到相同的问题,还尝试为sparkling-water-ml
and添加依赖sparkling-water-repl
项,以及添加所有 h2o 核心依赖项(尽管假设这些不需要,因为它们已集成到苏打水中?) . 请参阅下面的日志文件。