“sparkling-water”的相关标签问题

0 投票

0 回答

73 浏览

eclipse - 使用苏打水配置 Eclipse

我的目标是在 Mac 上使用 Eclipse 对 Sparkling Water 进行编码。

我已经能够使用 Brew install 安装 Java、Scala、Spark 2.2、Sparkling water 作为二进制文件，并且一直在 Jupyter notebook 上积极编码。我还能够成功安装 Eclipse、PyDev 并使用 Anaconda 的 Python 解释器对其进行配置。

我无法为 Spark 或苏打水配置 Eclipse。问题有两个方面：

Brew 安装没有可用作 Python 解释器的 .zip 或 .egg 文件。
Brew 不在 /Users//bash_profile 文件夹中创建环境变量。我想这可以通过手动添加 env 变量来解决。

我正在遵循https://enahwe.wordpress.com/2015/11/25/how-to-configure-eclipse-for-developing-with-python-and-spark-on-hadoop/的指示

有人可以提供使用 brew 安装配置 eclipse 的说明吗？

2017-12-05T12:35:20.597

0 投票

2 回答

794 浏览

scala - 如何在 Spark 中映射 DataFrame 以提取 RowData 并使用 h2o mojo 模型进行预测

我有一个以 mojo 格式保存的 h2o 模型，现在我正在尝试加载它并使用它来对新数据集 ( df) 进行预测，作为用 scala 编写的 spark 应用程序的一部分。理想情况下，我希望在现有 DataFrame 中添加一个新行，其中包含基于此模型的类概率。

我可以看到如何将 mojo 应用于已经以 RowData 格式的单个行（根据此处的答案），但我不确定如何映射现有的 DataFrame 以便它以正确的格式使用 mojo 进行预测模型。我曾经使用过 DataFrames，但从来没有使用过底层的 RDD。

此外，这个模型是否应该被序列化/广播，以便预测可以在集群上并行完成，还是作为地图的一部分可供所有执行者使用？

我已经做到了这一点：

但是我的row变量的格式不正确，无法正常工作。关于下一步尝试什么的任何建议？

编辑：我的 DataFrame 由 70 个预测特征列组成，它们是整数和类别/因子列的混合。一个非常简单的示例 DataFrame：

scala apache-spark h2o sparkling-water

2017-12-15T08:34:05.007

0 投票

1 回答

156 浏览

apache-spark - Sparking Water 与 H20 机器学习库相比有哪些好处

我知道 Sparkling Water 是在 Spark 环境中执行的 H20，因此它可以使用 Spark 引擎（以及所有 Spark 分布式结构）来分配计算，但就性能而言，这是好处，因为 H2O 已经是分布式和可扩展的机器学习库？

而且，H2O 的独立版本真的能够管理计算机集群上的分布式处理吗？

apache-spark machine-learning h2o sparkling-water

2017-12-19T19:48:14.943

0 投票

1 回答

1003 浏览

pyspark - Create Sparkling Water Cloud in Databricks using Python Notebook

I am trying to launch a Sparkling Water cloud within Spark using Databricks. I've attached the H2O library (3.16.0.2), PySparkling (pysparkling 0.4.6), and the Sparkling Water jar (sparkling-water-assembly_2.11-2.1.10-all.jar) to the cluster I'm running (Spark 2.1, Auto-updating Scala 1.1.1).

I succesfully import the required libraries below:

Yet when I try to initialize the Sparkling Water cloud using the following commands:

hc = H2OContext.getOrCreate(spark)

or

H2OContext.getOrCreate(sc)

I get the same error:

NameError: name 'H2OContext' is not defined

For what it's worth I can initialize the Sparkling Water cloud using this Scala documentation:

but this pipeline may not always use Databricks so it needs to be all in PySpark and Databricks doesn't have a corresponding PySpark example.

Thanks in advance.

pyspark h2o databricks sparkling-water

2017-12-22T13:38:49.987

0 投票

1 回答

56 浏览

parquet - 导入文件时，将其读取为 CSV 并导致数据乱码

使用 Spark2（在 Linux 7.2 下的 CDH 5.13 下）运行 sparkling-shell（尝试过的版本 2.2.2 - 2.2.6）。CSV 和 ZIP 文件可以正常导入，但是当我尝试导入 Parquet 文件时，它会将其读取为 CSV 并导致数据乱码。

有人有什么建议吗？

尚卡尔

parquet h2o sparkling-water

2018-01-23T20:59:27.550

0 投票

0 回答

44 浏览

h2o - H2o 苏打水和杜克图书馆

我们开始了苏打水的 POC，并意识到他们在内部使用duke 库。不知道杜克图书馆 H2o 有什么特点。

Duke 允许使用自定义比较器吗？h2o 是否公开了此功能？

我浏览了源代码，我看到的唯一参考是在 H2oContext 初始化期间，他们确保加载了 Duke Library Comparator。我怎么没有看到他们实际使用比较器的任何其他地方。

谢谢

h2o sparkling-water

2018-01-30T22:23:14.397

0 投票

1 回答

127 浏览

cluster-computing - H2O 多节点集群和基于 Sparkling Water 的 H2O Spark 集群之间的 ML 训练有性能差异吗？

我对 H2O 的 ML Training 性能方面的集群配置环境感到好奇。

如果是三个节点，配置通用 H2O 多节点集群和配置基于 Spark 的 H2O Spark 集群有性能差异吗？

从我们的实验中，我们得出结论，两者之间没有明显的性能差异。

但是，许多 H2O 文档告诉我，H2O 苏打水在 ML 训练中更有效。

参考
- H2O 多节点集群：http: //docs.h2o.ai/h2o/latest-stable/h2o-docs/starting-h2o.html#flatfile

cluster-computing h2o sparkling-water

2018-02-09T01:12:27.907

0 投票

0 回答

314 浏览

python - NullPointerException PySparkling H2OFrame 到 Spark DataFrame

pysparkling 2.1

我运行以下代码：

它工作得很好，就像在文档中一样。

但是当我尝试以下代码时：

我收到以下错误：

唯一的区别是我初始化 H2OFrame 的方式。是什么导致了这种差异？有什么我想念的吗？为什么如何创建 H2OFrame 很重要？

任何帮助表示赞赏

编辑：

some_list：

python apache-spark pyspark h2o sparkling-water

2018-02-23T15:46:58.547

0 投票

2 回答

100 浏览

h2o - 无法为手动苏打水后端启动 H2O 集群

我正在尝试手动启动一个 H2O 集群作为苏打水的外部后端。按照此处的文档，它说我需要将参数“名称”与扩展的 H2O 驱动程序一起使用。但是这样做表示参数“名称”不存在。如何设置云名称以便我可以使用它来识别 sparkling-shell 中的集群？驱动程序的帮助也没有提到设置云名称的方法。

任何帮助，将不胜感激。

此致，

马库斯

h2o sparkling-water

2018-02-23T19:24:47.950

0 投票

1 回答

509 浏览

python - 在 H2o KMEANS 聚类中获取点到聚类质心的距离

在 H2O KMeans 集群中。有没有办法计算数据集中每个点与集群质心的实际距离？目前 H2o 为传递的数据提供预测的集群，但获取点与其集群质心的距离的最佳方法是什么。

我打算将此用于异常检测，其中远离质心的点被视为异常。我没有使用 Apache Spark，但打算使用 Sparking Water 进行尝试，但 H2o Api 似乎没有显示从集群质心获取每个点的距离的最佳方法。

python k-means h2o anomaly-detection sparkling-water

2018-03-05T08:36:57.077

问题标签 [sparkling-water]

Reference