问题标签 [sparkling-water]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
274 浏览

tensorflow - 创建 h2o 模型的目的

在演示代码中 https://github.com/h2oai/sparkling-water/blob/master/py/examples/notebooks/TensorFlowDeepLearning.ipynb

我或多或少可以弄清楚代码在做什么。我的问题是在最后创建 h2o 模型以重复运行它有什么优势。这比仅仅在 tensorflow 中部署模型更好吗?

0 投票
1 回答
447 浏览

scala - 找不到类:org.apache.spark.h2o.package$StringHolder

我正在尝试简单的液滴https://github.com/h2oai/sparkling-water程序,但我无法使用 spark-submit 使其成功运行。

我使用了示例代码中使用的苏打水 1.6.4。

我没有使用示例代码中提供的gradel方式。我只是使用了非常简单的 sbt build。

程序运行良好,直到达到:

但是,它报告错误“无法找到类:org.apache.spark.h2o.package$StringHolder”:

我想我包括了 sparkling-water-assembly-1.6.4-all.jar,它应该包含所有内容。

有人会提出任何想法吗?

0 投票
2 回答
1164 浏览

h2o - h2o 苏打水将帧保存到磁盘

我正在尝试通过从 spark parquet 文件创建一个 h2o 框架来导入一个框架。该文件为 2GB,具有大约 12M 行和具有 12k 列的稀疏向量。镶木地板格式并不大,但导入需要很长时间。在 h2o 中,它实际上被报告为 447mb 压缩大小。其实很小。

我做错了吗,当我真正完成导入时(花了 39 分钟),h2o 中是否有任何形式可以将框架保存到磁盘以便下次快速加载?

我知道 h2o 在幕后做了一些魔术,这需要很长时间,但我只发现一个下载 csv 选项,对于 11k x 1M 稀疏数据来说,它是缓慢而巨大的,我怀疑导入它是否更快。

感觉好像少了一部分。任何有关 h2o 数据导入/导出的信息表示赞赏。模型保存/加载效果很好,但训练/验证/测试数据加载似乎是一个不合理的缓慢过程。

我得到了 10 个火花机,每个 10 克,给了司机 8 克。这应该足够了。

0 投票
1 回答
342 浏览

apache-spark - 苏打水:将火花数据帧转换为 H2o 数据帧时内存不足

我正在尝试将 Spark DataFrame 转换为 H2O DataFrame

对于火花设置,我正在使用

我尝试了 H2O 2.0.2 和 H2O 1.6.4。我在以下位置遇到了相同的错误:

错误信息是:

哪里错了?trainset 和 testset 中的数据都小于 10K,所以实际上很小。

0 投票
0 回答
292 浏览

h2o - 如何在本地模式下使用 spark 运行 Sparkling Water 示例

我正在尝试在 IntelliJ IDEA 中运行苏打水深度学习演示代码链接为:

https://github.com/h2oai/sparkling-water/blob/RELEASE-2.0.3/examples/src/main/scala/org/apache/spark/examples/h2o/DeepLearningDemo.scala

如果启动失败,异常是:

H2OContext构造and时看起来会抛出异常InternalH2OBackend

我会问如何在 IDE 中运行的 spark 本地模式下运行这个示例

0 投票
1 回答
464 浏览

h2o - 了解苏打水

我是苏打水的新手,我想问一些简单的问题:

  1. Sparking Water 是否支持 Spark MLlib 和 H2O 提供的所有算法

  2. 苏打水本身是否提供 Spark MLlib 和 H2O 不支持的算法?

  3. 如果我想在 Sparkling Water 上下文中使用纯 Spark MLlib 编写代码,我是否必须使用H2OContext与 Sparkling Water 相关的 API?

根据上述 3 个问题,我想我想了解的是苏打水的工作原理。(目前,我只知道 Sparkling Water 将 Spark 和 H2O 结合在一起)

谢谢。

我能够成功运行该AirlinesWithWeatherDemo2示例run-example.sh,但我有两个问题:

  1. H2O Flow web ui是在应用程序运行时打开的(可以通过54321端口访问),但是当应用程序结束后,打开54321端口的进程也关闭了(web ui已经无法访问了),我什么时候问我正在运行示例,此流程 UI 提供什么功能,因为它可能是短暂的

  2. 苏打水是为了整合 Spark 和 H2O,当我提交示例时,我只需要 sparkling-water-assembly_2.11-2.0.3-all 作为应用程序 jar(它包含示例类),看起来如果我想要运行苏打水不提供的 H2O 算法,我应该将 H2O jars(h2o.jar) 添加为依赖 jars?

0 投票
2 回答
72 浏览

apache-spark - 创建一个自动通过 H2O Flow 的作业

我已经创建了一个流来使用分布式随机森林模型进行预测,现在我想每隔几天进行一次预测,而不使用流 gui。

那么有没有办法自动化您的 H2O 流程或将整个脚本转换为 java/python 以自动运行流程?

0 投票
2 回答
462 浏览

apache-spark - 构建一个最小的苏打水应用程序

我是苏打水的新手。我现在如何从 sparkling-shell 运行我的程序。但是,我不确定如何构建一个独立的应用程序,我可以将其作为 spark 提交的输入。我需要包含哪些 jar 来构建我的应用程序?

0 投票
1 回答
472 浏览

r - sparklyr + rsparkling:连接到集群时出错

一段时间以来,我使用sparklyr包连接到公司的 Hadoop 集群,使用以下代码:

一切正常,但是当我尝试rsparkling使用类似代码添加包时:

我收到错误:

强制错误(代码):
在 sessionid (9819) 连接到 sparklyr 到端口 (8880) 时失败:Sparklyr 网关在 60 秒后检索端口信息时没有响应路径:/opt/spark-2.0.0-bin-hadoop2。 6/bin/spark-submit 参数:--class, sparklyr.Backend,--packages, 'ai.h2o:sparkling-water-core_2.11:2.0','ai.h2o:sparkling-water-ml_2.11: 2.0','ai.h2o:sparkling-water-repl_2.11:2.0', '/usr/lib64/R/library/sparklyr/java/sparklyr-2.0-2.11.jar', 8880, 9819

---- 输出日志 ----
Ivy 默认缓存设置为:/opt/users/user/.ivy2/cache 包的 jar 存储在:/opt/users/user/.ivy2/jars :: loading settings :: url = jar:file:/opt/spark-2.0.0-bin-hadoop2.6/jars/ivy-2.4.0.jar!/org/apache/ivy/core/settings/ivysettings.xml ai.h2o #sparkling-water-core_2.11 作为依赖项添加 ai.h2o#sparkling-water-ml_2.11 作为依赖项添加 ai.h2o#sparkling-water-repl_2.11 作为依赖项添加 :: 解决依赖项 :: org. apache.spark#spark-submit-parent;1.0 confs:[默认]

---- 错误日志 ----
另外:警告消息:1:在 if (nchar(config[[e]]) == 0) found <- FALSE 中:条件的长度为 1,只有第一个元素会使用 2:在 if (nchar(config[[e]]) == 0) found <- FALSE 中:条件的长度为 1,仅使用第一个元素

我是新手,spark现在clusters不确定该怎么做。任何帮助将不胜感激。我的第一个想法是缺少jar文件,sparkling watercluster吗?

0 投票
1 回答
319 浏览

apache-spark - GBM training with Sparkling Water on EMR failing with increased data size

I’m trying to train a GBM on an EMR cluster with 60 c4.8xlarge nodes using Sparkling Water. The process runs successfully up to a specific data size. Once I hit a certain data size (number of training examples) the process freezes in the collect stage in SpreadRDDBuilder.scala and dies after an hour. While this is happening the network memory continues to grow to capacity while there’s no progress in Spark stages (see below) and very little CPU usage and network traffic. I’ve tried increasing the executor and driver memory and num-executors but I’m seeing the exact same behavior under all configurations.

Thanks for looking at this. It’s my first time posting here so please let me know if you need any more information.

Parameters

Other parameters that I’ve tried with no success:

Spark UI

Driver logs

stderror for yarn containers