问题标签 [sparkling-water]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
2 回答
403 浏览

apache-spark - 在苏打水壳中无法将工作器内存增加到 2GB 以上

运行时sparkling-shell

出现以下错误:

我们在 中设置了以下内容spark-env.sh

以及以下内容spark-defaults.conf

我们可以让 shell 启动的唯一方法是将工作内存重置为 2GB:

但这根本不足以运行我们的工作。有人找到解决此问题的方法吗?

0 投票
1 回答
786 浏览

python - Sparkling Water - 将 python 脚本作为 Spark 应用程序运行

我在使用 Sparkling Water 将 python 脚本作为 Spark 应用程序运行时遇到了一些麻烦。我使用这个命令在 Spark 上执行我的脚本:

./bin/spark-提交\

--packages ai.h2o:sparkling-water-core_2.10:1.5.12 \

--py-files $SPARKLING_HOME/py/dist/pySparkling-1.5.12-py2.7.egg $SPARKLING_HOME/Python/test.py

我有这个下降的错误:

py4j.protocol.Py4JError: 试图调用一个包。

日志:

我该如何解决这个问题?我完全遵循手册中的命令:https ://h2o-release.s3.amazonaws.com/h2o/rel-turan/3/docs-website/h2o-docs/booklets/SparklingWaterVignette.pdf

0 投票
2 回答
701 浏览

scala - 如何在 scala 中强制使用 Integer 类型的 H2OFrame 列?

我正在训练 aDRFModel并且在评估接收异常时:Exception in thread "main" java.lang.ClassCastException: hex.ModelMetricsRegression cannot be cast to hex.ModelMetricsBinomial.

数据有一个名为“标签”的列,其中包含 0 或 1,即目标列:dRFParameters._response_column = "label"。看起来模型将目标列值视为实数。

我在 python API 上也遇到了这个问题,并通过在H2OFrame:上使用以下内容进行了修复hdf['label'] = hdf['label'].asfactor()。我是 scala 和 h2o 的新手。我想知道强制 h2o 将目标列H2OFrame视为二进制(整数)的最佳方法是什么。

(这是我关于堆栈溢出的第一个问题。让我知道是否需要更具体或附加整个代码。谢谢。)

0 投票
2 回答
213 浏览

hadoop - H2o Number of Executors not working

I start the sparkling-shell with the following command.

./bin/sparkling-shell --num-executors 4 --executor-memory 4g --master yarn-client

I only ever get two executors. Is this an H2o problem, YARN problem, or Spark problem?

Mike

0 投票
1 回答
935 浏览

scala - 如何根据列值过滤 H2OFrame (scala) 中的行?

我正在H2OFrame从 CSV 文件中读取:

val h2oFrame = new H2OFrame(new File(inputCsvFilePath))

如何执行等效的.filter()操作(可用于 SparkDataFrameRDD)。例如,我如何获得一个新的H2OFramewhere “label”(这是一个列名)在>1哪里?

我尝试转换org.apache.spark.sql.DataFrame为如下(简化示例):

但这似乎抛出OutOfMemoryError如下:

异常:线程“Executor task launch worker-2”中的 UncaughtExceptionHandler 抛出 java.lang.OutOfMemoryError

0 投票
1 回答
325 浏览

python - Databricks + H2O PySparkling:addURL Py4JException

我是 H2O 和 spark 框架的新手,在H2O+Spark (sparkling-water)Databricks 中加入 PySparkling 时遇到了麻烦。我有一个在 1.5.2 环境中的 Databricks 中运行的 12 个工作集群。

我采取的步骤如下: 1. 将H2O
所需的必要库(六个、请求、列表和未来)附加(安装)到我的集群

  1. sparkling-water-1.5.14/py/dist然后,在从 sparkling-water-1.5.14.zip 包中解压缩后,我从文件夹中取出了必要的 .egg 文件。

  2. 我还将 附加sparkling-water-assembly-1.5.14.jar到我的 Databricks 集群

  3. 我能够import h2o成功。但是,当我在 Databricks 的 python NB 中运行以下单元格时,出现以下异常:

    在 Spark 上启动 H2OContext
    from pysparkling import * hc = H2OContext(sc).start() import h2o

我收到以下错误

衷心感谢有关如何解决此异常的任何指导。

0 投票
1 回答
138 浏览

machine-learning - 表示 H2O 的输入 CSV 中的项目列表

如何表示 H2O 的输入数据(数据框)中的项目集/列表?

我正在使用带有 H2O Flow 的苏打水 1.6.5。我的输入数据(CSV 文件中的列)如下所示:

爱好和运动是列表/集合,可能条目数量有限(每个约 20 个)。H2O 似乎没有合适的数据类型。如何将这些导出到 H2O Flow 可以处理的 CSV 文件中?

0 投票
2 回答
529 浏览

apache-spark - 发现没有 H2O 实例的执行程序,杀死云

我正在使用苏打水为不同大小的数据运行 Tweedie GLM,即 20 MB、400 MB、2GB、25 GB。代码适用于采样迭代 10。但我必须测试大样本场景..

在这种情况下,代码适用于 20 和 400 mb 数据。但是当数据大于 2 GB 时它开始抛出问题

进行搜索后,我发现了一种禁用更改侦听器的解决方案,但这不适用于大数据。
--conf "spark.scheduler.minRegisteredResourcesRatio=1" "spark.ext.h2o.topology.change.listener.enabled=false"

这是我的火花提交配置

这就是我得到的错误

0 投票
1 回答
68 浏览

apache-spark - 苏打水中工人与工人的交流

我认为从系统图中可以看出苏打水实现了工人与工人的直接通信(无需回到主人那里)。有人可以指出该功能的代码在哪里吗?

0 投票
2 回答
464 浏览

scala - 苏打水:不能使用 spark ml 管道的支持

根据Sparkling water 的这篇博客,您现在可以使用 Spark ML 管道组件在最新版本中构建 DL 模型。我尝试在我的build.sbt

但没有运气,尝试导入org.apache.spark.ml.h2o.H2OPipeline是行不通的。火花罐中似乎不存在里面的h2o包裹。spark.ml尽管它似乎在上面的链接和这里都有效。我真的很想重用我的 spark-mllib 特征转换器来使用 h2o 创建一个 DL 模型,如博客中所示。

任何帮助表示赞赏!

谢谢。