问题标签 [sparkling-water]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
0 回答
73 浏览

eclipse - 使用苏打水配置 Eclipse

我的目标是在 Mac 上使用 Eclipse 对 Sparkling Water 进行编码。

我已经能够使用 Brew install 安装 Java、Scala、Spark 2.2、Sparkling water 作为二进制文件,并且一直在 Jupyter notebook 上积极编码。我还能够成功安装 Eclipse、PyDev 并使用 Anaconda 的 Python 解释器对其进行配置。

我无法为 Spark 或苏打水配置 Eclipse。问题有两个方面:

  1. Brew 安装没有可用作 Python 解释器的 .zip 或 .egg 文件。
  2. Brew 不在 /Users//bash_profile 文件夹中创建环境变量。我想这可以通过手动添加 env 变量来解决。

我正在遵循https://enahwe.wordpress.com/2015/11/25/how-to-configure-eclipse-for-developing-with-python-and-spark-on-hadoop/的指示

有人可以提供使用 brew 安装配置 eclipse 的说明吗?

0 投票
2 回答
794 浏览

scala - 如何在 Spark 中映射 DataFrame 以提取 RowData 并使用 h2o mojo 模型进行预测

我有一个以 mojo 格式保存的 h2o 模型,现在我正在尝试加载它并使用它来对新数据集 ( df) 进行预测,作为用 scala 编写的 spark 应用程序的一部分。理想情况下,我希望在现有 DataFrame 中添加一个新行,其中包含基于此模型的类概率。

我可以看到如何将 mojo 应用于已经以 RowData 格式的单个行(根据此处的答案),但我不确定如何映射现有的 DataFrame 以便它以正确的格式使用 mojo 进行预测模型。我曾经使用过 DataFrames,但从来没有使用过底层的 RDD。

此外,这个模型是否应该被序列化/广播,以便预测可以在集群上并行完成,还是作为地图的一部分可供所有执行者使用?

我已经做到了这一点:

但是我的row变量的格式不正确,无法正常工作。关于下一步尝试什么的任何建议?

编辑:我的 DataFrame 由 70 个预测特征列组成,它们是整数和类别/因子列的混合。一个非常简单的示例 DataFrame:

0 投票
1 回答
156 浏览

apache-spark - Sparking Water 与 H20 机器学习库相比有哪些好处

我知道 Sparkling Water 是在 Spark 环境中执行的 H20,因此它可以使用 Spark 引擎(以及所有 Spark 分布式结构)来分配计算,但就性能而言,这是好处,因为 H2O 已经是分布式和可扩展的机器学习库?

而且,H2O 的独立版本真的能够管理计算机集群上的分布式处理吗?

0 投票
1 回答
1003 浏览

pyspark - Create Sparkling Water Cloud in Databricks using Python Notebook

I am trying to launch a Sparkling Water cloud within Spark using Databricks. I've attached the H2O library (3.16.0.2), PySparkling (pysparkling 0.4.6), and the Sparkling Water jar (sparkling-water-assembly_2.11-2.1.10-all.jar) to the cluster I'm running (Spark 2.1, Auto-updating Scala 1.1.1).

I succesfully import the required libraries below:

Yet when I try to initialize the Sparkling Water cloud using the following commands:

hc = H2OContext.getOrCreate(spark)

or

H2OContext.getOrCreate(sc)

I get the same error:

NameError: name 'H2OContext' is not defined

For what it's worth I can initialize the Sparkling Water cloud using this Scala documentation:

but this pipeline may not always use Databricks so it needs to be all in PySpark and Databricks doesn't have a corresponding PySpark example.

Thanks in advance.

0 投票
1 回答
56 浏览

parquet - 导入文件时,将其读取为 CSV 并导致数据乱码

使用 Spark2(在 Linux 7.2 下的 CDH 5.13 下)运行 sparkling-shell(尝试过的版本 2.2.2 - 2.2.6)。CSV 和 ZIP 文件可以正常导入,但是当我尝试导入 Parquet 文件时,它会将其读取为 CSV 并导致数据乱码。

有人有什么建议吗?

尚卡尔

0 投票
0 回答
44 浏览

h2o - H2o 苏打水和杜克图书馆

我们开始了苏打水的 POC,并意识到他们在内部使用duke 库。不知道杜克图书馆 H2o 有什么特点。

Duke 允许使用自定义比较器吗?h2o 是否公开了此功能?

我浏览了源代码,我看到的唯一参考是在 H2oContext 初始化期间,他们确保加载了 Duke Library Comparator。我怎么没有看到他们实际使用比较器的任何其他地方。

谢谢

0 投票
1 回答
127 浏览

cluster-computing - H2O 多节点集群和基于 Sparkling Water 的 H2O Spark 集群之间的 ML 训练有性能差异吗?

我对 H2O 的 ML Training 性能方面的集群配置环境感到好奇。

如果是三个节点,配置通用 H2O 多节点集群和配置基于 Spark 的 H2O Spark 集群有性能差异吗?

从我们的实验中,我们得出结论,两者之间没有明显的性能差异。

但是,许多 H2O 文档告诉我,H2O 苏打水在 ML 训练中更有效。

0 投票
0 回答
314 浏览

python - NullPointerException PySparkling H2OFrame 到 Spark DataFrame

pysparkling 2.1

我运行以下代码:

它工作得很好,就像在文档中一样。

但是当我尝试以下代码时:

我收到以下错误:

唯一的区别是我初始化 H2OFrame 的方式。是什么导致了这种差异?有什么我想念的吗?为什么如何创建 H2OFrame 很重要?

任何帮助表示赞赏

编辑:

some_list

0 投票
2 回答
100 浏览

h2o - 无法为手动苏打水后端启动 H2O 集群

我正在尝试手动启动一个 H2O 集群作为苏打水的外部后端。按照此处的文档,它说我需要将参数“名称”与扩展的 H2O 驱动程序一起使用。但是这样做表示参数“名称”不存在。如何设置云名称以便我可以使用它来识别 sparkling-shell 中的集群?驱动程序的帮助也没有提到设置云名称的方法。

任何帮助,将不胜感激。

此致,

马库斯

0 投票
1 回答
509 浏览

python - 在 H2o KMEANS 聚类中获取点到聚类质心的距离

在 H2O KMeans 集群中。有没有办法计算数据集中每个点与集群质心的实际距离?目前 H2o 为传递的数据提供预测的集群,但获取点与其集群质心的距离的最佳方法是什么。

我打算将此用于异常检测,其中远离质心的点被视为异常。我没有使用 Apache Spark,但打算使用 Sparking Water 进行尝试,但 H2o Api 似乎没有显示从集群质心获取每个点的距离的最佳方法。