问题标签 [sparkling-water]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
0 回答
284 浏览

python - 使用 Apache Hadoop 2.7.3 在 H2O 3.11.4.8 中的卷曲连接

我在只有 2 个节点的计算机集群中安装了 HDP 2.6。每个节点都有

  • 处理器 2 核
  • 内存 8 GB
  • 硬盘 40 GB

在此处输入图像描述

我也安装了 Apache Hadoop 2.7.3。因此,我可以使用 YARN 运行 H2O 3.11.4.8。但是,当我尝试使用带有 R 的 500 MB 数据集构建深度学习模型时发生错误。这是错误

在使用 R 之前,我也使用 Python。但是,我再次收到类似的错误。该错误表明我的请求包有问题,因为该包无法与 H2O 建立新连接。这是我使用 Python API 时的错误。

从这个错误中,我试图弄清楚为什么会发生这种情况。我得到了一些关于它的重要信息。

  1. Hadoop 部分中的 H2O 文档(很抱歉没有提供链接,我的声誉很低),H2O 应该使用 6 GB 的 RAM 运行。用我之前提供的截图。RAM 不是问题。

  2. 社区 H2O 问题“H2O 内存要求”,它说 RAM 大小应该是数据集大小的 4 倍。因为我的数据集是500MB,应该是通过了。

从这些信息中,我得出一个结论,即我的集群足以毫无问题地处理数据集。所以,问题不应该来自硬件。

我从与我的问题类似的问题中得到了更好的线索。

  1. 社区 H2O 问题“.h2o.doSafeREST 中的错误:无法解析主机:localhost”。它在回答点 2 中说。这是因为“H2O 仍在为先前的请求提供服务,而该请求无法通过”。

我认为 R 和 Python 中的 API 使用 Curl 和连接 H2O Rest API 的请求。由于请求太多,H2O Server 无法处理它并给我这个错误。

我也试图减慢请求,但我不知道该怎么做。您是否有更好的解决方案来解决这个问题。

非常感谢

PS 我在使用 YARN 的苏打水 1.6.11 和 2.1.8 中也遇到了这个问题。尝试使用相同数据集构建深度学习模型时,两者都突然停止工作。

里面的容器在yarn application -list没有我干预的情况下被杀死。我不知道为什么,但我认为这是一个同样的问题。

0 投票
1 回答
2909 浏览

python - 使用 Spark 2.1 运行 PySparkling 的 H20Context 出错

尝试在 AWS EMR 集群上运行 Pysparkling 脚本时出现此错误。下载 Sparkling water 2.1.8 并从 pysparkling shell 运行它时,我可以让一切正常工作。但是,火花提交似乎不起作用。

错误:

我的火花提交:

Python 文件

另外,我已经尝试过实际制作火花上下文,但这只会导致相同的错误,但需要更长的时间。

引导文件:

更详细的输出:

0 投票
0 回答
64 浏览

machine-learning - 使 H2O 网格搜索具有确定性

为了以确定的结果运行 h2o ,在和RandomDiscreteValueWalker[DRFParameters]上设置种子是否足够?即使我为这些参数固定了种子,我也会得到不确定的结果?DRFParametersRandomDiscreteValueSearchCriteria

0 投票
1 回答
646 浏览

java - 为什么 H2O 通过 Spark 而不是直接集成 TensorFlow?

我真的很喜欢 H2O,尤其是因为您可以轻松地将构建的模型部署到任何 Java / JVM 应用程序中……这也是我对 TensorFlow 的目标:构建模型,然后在 Java 应用程序中运行它们。

通过在分布式 Spark 节点上运行 TensorFlow,H2O 在使用 TensorFlow 时“在中间”使用 Spark(Sparking Water)。我在H2O 演示视频中学到了这一点(希望是正确的)。

为什么不直接将 TensorFlow(以及其他类似 MXNet)与 H2O 集成,而是通过 Apache Spark?

像 TensorFlow 这样的框架本身就允许分布式训练,那么为什么要在“中间”使用 Spark?这不会增加很多复杂性(并且在许多情况下不需要它)吗?

例如,Google 构建了 Scikit Flow (Scikit-learn + TensorFlow) 以允许轻松使用 TensorFlow 来构建模型。

特别是对于较小的数据集和/或更简单的用例,这似乎是在中间使用 Spark 更容易的选择?如果我理解正确,您也可以在 Java 中使用此模型,然后通过TensorFlow4Java

我想在未来的项目和场景中更多地利用 H2O(就像过去一样,请参阅此处,我使用 Apache Kafka 及其 Streams API 将 H2O 模型应用于实时应用程序)。不过,我不确定为什么我需要 Spark 的“开销”来使用 H2O 和 TensorFlow 构建模型(尤其是对于较小的数据集和/或“小型神经网络”可能足够好的简单场景?

0 投票
0 回答
186 浏览

python-2.7 - 创建 H2OContext 时获取“提供者 org.apache.spark.h2o.RestAnnouncementProvider 无法实例化”

我正在尝试在 pyspark 中使用H2OContext.getOrCreate(sc). 使用 python 包 h2o=3.10.4.8 和 h2o-pysparkling-1.6=1.6.8 可以按预期工作(使用 pip 安装的包),但是使用 h2o-pysparkling-1.6.11 我收到以下错误:

我在 YARN 上使用 Python2.7、Spark 1.6.0、CDH5.7.0

0 投票
1 回答
526 浏览

apache-spark - 从大型 Spark Dataframe 到 H2O Dataframe 的 H2O 苏打水错误

当我尝试从 spark 数据帧转换为 H2O 数据帧时,出现以下错误。这似乎与数据框的大小有关,因为当我将其缩小时,火花和 H2O 之间的转换器效果很好。

为了使用苏打水将大型火花数据帧转换为 H2O,是否需要更改任何配置?在我的配置中,我允许驱动程序和执行程序使用最大内存,所以这不是内存问题。

我在这里使用 R 代码是:

错误:

0 投票
1 回答
390 浏览

h2o - H2O.ai 苏打水中的模型序列化

你们是否已经在 Sparkling Models 中使用序列化模型或将 Spark 等模型导出以投入生产?我怎样才能做到这一点?!

提前致谢。

弗拉维奥

0 投票
1 回答
483 浏览

r - 在 H2O 数据帧上调用 as.factor 时出现 H2O 错误

当我调用以下可重现的文档时:

在 H2O 数据帧上,我收到以下错误。

这是全新的,它不仅发生在我的电脑上,也发生在同事的电脑上。我已经重新启动了集群。重新安装了 sparklyr 和 Rsparkling。我也更改了版本,并且不断收到相同的错误。有任何想法吗?

一些日志:

0 投票
0 回答
173 浏览

scala - 苏打水本地模式集群错误

我正在尝试扩展 hamorspam 示例(https://github.com/h2oai/sparkling-water/blob/master/examples/scripts/hamOrSpam.script.scala )以使用 spark 的并行计算能力对大型数据集进行并行预测(在推理阶段,而不是训练阶段)。

下面是我为此编写的代码。export MASTER="local[*]此外,它在单节点本地模式(对于``)中完美运行 ,但是当我export MASTER="local-cluster[2,2,1024]在生成 2 个工作节点时运行时失败。(检查预测并行化)

所以代码在执行时失败scala> val table:H2OFrame = resultRDDhttps://github.com/h2oai/sparkling-water/blob/master/examples/scripts/hamOrSpam.script.scala#L110

我从下面的控制台附加了错误:

有任何想法吗?。提前致谢。

0 投票
2 回答
284 浏览

r - 无法让最新的苏打水 (2.2) 与 R 一起使用(通过 rsparkling)

我在更新rsparkling以使用苏打水 2.2 和 Spark 2.2 时遇到问题。一切都适用于以前的版本(<2.1)。

我已经安装了最新的 Sparkling Water 2.2 二进制文件附带的 rsparkling 版本 R 包(根据https://h2o-release.s3.amazonaws.com/sparkling-water/rel-2.2/0/index.html),并且将苏打水版本设置为安装位置(即 options(rsparkling.sparklingwater.location = "/Users/me/sparkling-water-2.2.0/"))。

我现在可以连接到我的集群,但出现错误

java.lang.ClassNotFoundException: org.apache.spark.h2o.H2OContext

我认为这可能与我使用的 h2o 版本有关——3.14.0.2这是安装页面中推荐的版本。

有谁知道哪个版本的 h2o 苏打水 2.2 可以使用?rsparkling 文档 ( https://github.com/h2oai/rsparkling ) 未更新到 2.2。这个错误可能是其他原因造成的吗?

我正在连接到一个独立的火花集群,我的设置是: