问题标签 [sparkling-water]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
apache-spark - 在苏打水壳中无法将工作器内存增加到 2GB 以上
运行时sparkling-shell
:
出现以下错误:
我们在 中设置了以下内容spark-env.sh
:
以及以下内容spark-defaults.conf
:
我们可以让 shell 启动的唯一方法是将工作内存重置为 2GB:
但这根本不足以运行我们的工作。有人找到解决此问题的方法吗?
python - Sparkling Water - 将 python 脚本作为 Spark 应用程序运行
我在使用 Sparkling Water 将 python 脚本作为 Spark 应用程序运行时遇到了一些麻烦。我使用这个命令在 Spark 上执行我的脚本:
./bin/spark-提交\
--packages ai.h2o:sparkling-water-core_2.10:1.5.12 \
--py-files $SPARKLING_HOME/py/dist/pySparkling-1.5.12-py2.7.egg $SPARKLING_HOME/Python/test.py
我有这个下降的错误:
py4j.protocol.Py4JError: 试图调用一个包。
日志:
我该如何解决这个问题?我完全遵循手册中的命令:https ://h2o-release.s3.amazonaws.com/h2o/rel-turan/3/docs-website/h2o-docs/booklets/SparklingWaterVignette.pdf
scala - 如何在 scala 中强制使用 Integer 类型的 H2OFrame 列?
我正在训练 aDRFModel
并且在评估接收异常时:Exception in thread "main" java.lang.ClassCastException: hex.ModelMetricsRegression cannot be cast to hex.ModelMetricsBinomial
.
数据有一个名为“标签”的列,其中包含 0 或 1,即目标列:dRFParameters._response_column = "label"
。看起来模型将目标列值视为实数。
我在 python API 上也遇到了这个问题,并通过在H2OFrame
:上使用以下内容进行了修复hdf['label'] = hdf['label'].asfactor()
。我是 scala 和 h2o 的新手。我想知道强制 h2o 将目标列H2OFrame
视为二进制(整数)的最佳方法是什么。
(这是我关于堆栈溢出的第一个问题。让我知道是否需要更具体或附加整个代码。谢谢。)
hadoop - H2o Number of Executors not working
I start the sparkling-shell with the following command.
./bin/sparkling-shell --num-executors 4 --executor-memory 4g --master yarn-client
I only ever get two executors. Is this an H2o problem, YARN problem, or Spark problem?
Mike
scala - 如何根据列值过滤 H2OFrame (scala) 中的行?
我正在H2OFrame
从 CSV 文件中读取:
val h2oFrame = new H2OFrame(new File(inputCsvFilePath))
如何执行等效的.filter()
操作(可用于 SparkDataFrame
或RDD
)。例如,我如何获得一个新的H2OFrame
where “label”(这是一个列名)在>1
哪里?
我尝试转换org.apache.spark.sql.DataFrame
为如下(简化示例):
但这似乎抛出OutOfMemoryError
如下:
异常:线程“Executor task launch worker-2”中的 UncaughtExceptionHandler 抛出 java.lang.OutOfMemoryError
python - Databricks + H2O PySparkling:addURL Py4JException
我是 H2O 和 spark 框架的新手,在H2O+Spark (sparkling-water)
Databricks 中加入 PySparkling 时遇到了麻烦。我有一个在 1.5.2 环境中的 Databricks 中运行的 12 个工作集群。
我采取的步骤如下: 1. 将H2O
所需的必要库(六个、请求、列表和未来)附加(安装)到我的集群
sparkling-water-1.5.14/py/dist
然后,在从 sparkling-water-1.5.14.zip 包中解压缩后,我从文件夹中取出了必要的 .egg 文件。我还将 附加
sparkling-water-assembly-1.5.14.jar
到我的 Databricks 集群我能够
import h2o
成功。但是,当我在 Databricks 的 python NB 中运行以下单元格时,出现以下异常:在 Spark 上启动 H2OContext
from pysparkling import * hc = H2OContext(sc).start() import h2o
我收到以下错误
衷心感谢有关如何解决此异常的任何指导。
machine-learning - 表示 H2O 的输入 CSV 中的项目列表
如何表示 H2O 的输入数据(数据框)中的项目集/列表?
我正在使用带有 H2O Flow 的苏打水 1.6.5。我的输入数据(CSV 文件中的列)如下所示:
爱好和运动是列表/集合,可能条目数量有限(每个约 20 个)。H2O 似乎没有合适的数据类型。如何将这些导出到 H2O Flow 可以处理的 CSV 文件中?
apache-spark - 发现没有 H2O 实例的执行程序,杀死云
我正在使用苏打水为不同大小的数据运行 Tweedie GLM,即 20 MB、400 MB、2GB、25 GB。代码适用于采样迭代 10。但我必须测试大样本场景..
在这种情况下,代码适用于 20 和 400 mb 数据。但是当数据大于 2 GB 时它开始抛出问题
进行搜索后,我发现了一种禁用更改侦听器的解决方案,但这不适用于大数据。
--conf "spark.scheduler.minRegisteredResourcesRatio=1" "spark.ext.h2o.topology.change.listener.enabled=false"
这是我的火花提交配置
这就是我得到的错误
apache-spark - 苏打水中工人与工人的交流
我认为从系统图中可以看出苏打水实现了工人与工人的直接通信(无需回到主人那里)。有人可以指出该功能的代码在哪里吗?