问题标签 [sparkling-water]

问问题

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

120 问题

0 投票

2 回答

403 浏览

apache-spark - 在苏打水壳中无法将工作器内存增加到 2GB 以上

运行时sparkling-shell：

出现以下错误：

我们在中设置了以下内容spark-env.sh：

以及以下内容spark-defaults.conf：

我们可以让 shell 启动的唯一方法是将工作内存重置为 2GB：

但这根本不足以运行我们的工作。有人找到解决此问题的方法吗？

2016-04-07T01:40:42.940

0 投票

1 回答

786 浏览

python - Sparkling Water - 将 python 脚本作为 Spark 应用程序运行

我在使用 Sparkling Water 将 python 脚本作为 Spark 应用程序运行时遇到了一些麻烦。我使用这个命令在 Spark 上执行我的脚本：

./bin/spark-提交\

--packages ai.h2o:sparkling-water-core_2.10:1.5.12 \

--py-files $SPARKLING_HOME/py/dist/pySparkling-1.5.12-py2.7.egg $SPARKLING_HOME/Python/test.py

我有这个下降的错误：

py4j.protocol.Py4JError: 试图调用一个包。

日志：

我该如何解决这个问题？我完全遵循手册中的命令：https ://h2o-release.s3.amazonaws.com/h2o/rel-turan/3/docs-website/h2o-docs/booklets/SparklingWaterVignette.pdf

python pyspark h2o sparkling-water

2016-04-12T20:26:14.437

0 投票

2 回答

701 浏览

scala - 如何在 scala 中强制使用 Integer 类型的 H2OFrame 列？

我正在训练 aDRFModel并且在评估接收异常时：Exception in thread "main" java.lang.ClassCastException: hex.ModelMetricsRegression cannot be cast to hex.ModelMetricsBinomial.

数据有一个名为“标签”的列，其中包含 0 或 1，即目标列：dRFParameters._response_column = "label"。看起来模型将目标列值视为实数。

我在 python API 上也遇到了这个问题，并通过在H2OFrame:上使用以下内容进行了修复hdf['label'] = hdf['label'].asfactor()。我是 scala 和 h2o 的新手。我想知道强制 h2o 将目标列H2OFrame视为二进制（整数）的最佳方法是什么。

（这是我关于堆栈溢出的第一个问题。让我知道是否需要更具体或附加整个代码。谢谢。）

scala h2o sparkling-water

2016-05-06T00:42:21.437

0 投票

2 回答

213 浏览

hadoop - H2o Number of Executors not working

I start the sparkling-shell with the following command.

./bin/sparkling-shell --num-executors 4 --executor-memory 4g --master yarn-client

I only ever get two executors. Is this an H2o problem, YARN problem, or Spark problem?

Mike

hadoop apache-spark h2o sparkling-water

2016-05-13T17:44:30.693

0 投票

1 回答

935 浏览

scala - 如何根据列值过滤 H2OFrame (scala) 中的行？

我正在H2OFrame从 CSV 文件中读取：

val h2oFrame = new H2OFrame(new File(inputCsvFilePath))

如何执行等效的.filter()操作（可用于 SparkDataFrame或RDD）。例如，我如何获得一个新的H2OFramewhere “label”（这是一个列名）在>1哪里？

我尝试转换org.apache.spark.sql.DataFrame为如下（简化示例）：

但这似乎抛出OutOfMemoryError如下：

异常：线程“Executor task launch worker-2”中的 UncaughtExceptionHandler 抛出 java.lang.OutOfMemoryError

scala h2o sparkling-water

2016-05-17T20:51:23.913

0 投票

1 回答

325 浏览

python - Databricks + H2O PySparkling：addURL Py4JException

我是 H2O 和 spark 框架的新手，在H2O+Spark (sparkling-water)Databricks 中加入 PySparkling 时遇到了麻烦。我有一个在 1.5.2 环境中的 Databricks 中运行的 12 个工作集群。

我采取的步骤如下： 1. 将H2O
所需的必要库（六个、请求、列表和未来）附加（安装）到我的集群

sparkling-water-1.5.14/py/dist然后，在从 sparkling-water-1.5.14.zip 包中解压缩后，我从文件夹中取出了必要的 .egg 文件。
我还将附加sparkling-water-assembly-1.5.14.jar到我的 Databricks 集群
我能够import h2o成功。但是，当我在 Databricks 的 python NB 中运行以下单元格时，出现以下异常：

在 Spark 上启动 H2OContext
from pysparkling import * hc = H2OContext(sc).start() import h2o

我收到以下错误

衷心感谢有关如何解决此异常的任何指导。

python pyspark jupyter-notebook h2o sparkling-water

2016-05-28T23:28:09.670

0 投票

1 回答

138 浏览

machine-learning - 表示 H2O 的输入 CSV 中的项目列表

如何表示 H2O 的输入数据（数据框）中的项目集/列表？

我正在使用带有 H2O Flow 的苏打水 1.6.5。我的输入数据（CSV 文件中的列）如下所示：

爱好和运动是列表/集合，可能条目数量有限（每个约 20 个）。H2O 似乎没有合适的数据类型。如何将这些导出到 H2O Flow 可以处理的 CSV 文件中？

machine-learning h2o sparkling-water

2016-06-25T10:03:30.080

0 投票

2 回答

529 浏览

apache-spark - 发现没有 H2O 实例的执行程序，杀死云

我正在使用苏打水为不同大小的数据运行 Tweedie GLM，即 20 MB、400 MB、2GB、25 GB。代码适用于采样迭代 10。但我必须测试大样本场景..

在这种情况下，代码适用于 20 和 400 mb 数据。但是当数据大于 2 GB 时它开始抛出问题

进行搜索后，我发现了一种禁用更改侦听器的解决方案，但这不适用于大数据。
--conf "spark.scheduler.minRegisteredResourcesRatio=1" "spark.ext.h2o.topology.change.listener.enabled=false"

这是我的火花提交配置

这就是我得到的错误

apache-spark machine-learning glm h2o sparkling-water

2016-07-08T21:51:18.113

0 投票

1 回答

68 浏览

apache-spark - 苏打水中工人与工人的交流

我认为从系统图中可以看出苏打水实现了工人与工人的直接通信（无需回到主人那里）。有人可以指出该功能的代码在哪里吗？

apache-spark sparkling-water

2016-07-25T00:53:21.280

0 投票

2 回答

464 浏览

scala - 苏打水：不能使用 spark ml 管道的支持

根据Sparkling water 的这篇博客，您现在可以使用 Spark ML 管道组件在最新版本中构建 DL 模型。我尝试在我的build.sbt

但没有运气，尝试导入org.apache.spark.ml.h2o.H2OPipeline是行不通的。火花罐中似乎不存在里面的h2o包裹。spark.ml尽管它似乎在上面的链接和这里都有效。我真的很想重用我的 spark-mllib 特征转换器来使用 h2o 创建一个 DL 模型，如博客中所示。

任何帮助表示赞赏！

谢谢。

scala apache-spark apache-spark-mllib h2o sparkling-water

2016-10-03T18:55:15.917

1 2 3 4 5 6 7 8 9 10

问题标签 [sparkling-water]

Reference