1

我是苏打水的新手,我想问一些简单的问题:

  1. Sparking Water 是否支持 Spark MLlib 和 H2O 提供的所有算法

  2. 苏打水本身是否提供 Spark MLlib 和 H2O 不支持的算法?

  3. 如果我想在 Sparkling Water 上下文中使用纯 Spark MLlib 编写代码,我是否必须使用H2OContext与 Sparkling Water 相关的 API?

根据上述 3 个问题,我想我想了解的是苏打水的工作原理。(目前,我只知道 Sparkling Water 将 Spark 和 H2O 结合在一起)

谢谢。

Questions-2017-01-11

我能够成功运行该AirlinesWithWeatherDemo2示例run-example.sh,但我有两个问题:

  1. H2O Flow web ui是在应用程序运行时打开的(可以通过54321端口访问),但是当应用程序结束后,打开54321端口的进程也关闭了(web ui已经无法访问了),我什么时候问我正在运行示例,此流程 UI 提供什么功能,因为它可能是短暂的

  2. 苏打水是为了整合 Spark 和 H2O,当我提交示例时,我只需要 sparkling-water-assembly_2.11-2.0.3-all 作为应用程序 jar(它包含示例类),看起来如果我想要运行苏打水不提供的 H2O 算法,我应该将 H2O jars(h2o.jar) 添加为依赖 jars?

4

1 回答 1

2
  1. 是的

  2. 并非如此,我们正在努力包装 Spark 的 MLlib 算法,以便您可以从 H2O 的 FlowUI 运行它们,并包装 H2O 的算法,以便您可以在 MLlib 的管道中使用它们。

  3. 仅当您想运行 H2O 特定功能时才需要 H2OContext。

Sparkling Water 只允许您在 Spark 节点内运行 H2O 节点,而不是手动引导 H2O 集群。这也允许您在 H2O 和 Spark 中使用数据。

@编辑:

  1. 没有,但您可能有一个长时间运行的 Spark 作业,在执行一些初始计算后您不会退出,而是锁定该作业(并且需要以某种方式终止它)。然后您可以正常使用 FlowUI。我们每次都简单地启动 HTTP 服务器(即使是演示)。没有理由不这样做。

  2. 您可以使用我们的一个水滴 - https://github.com/h2oai/h2o-droplets/tree/master/sparkling-water-droplet这是一个模板项目,您在主类中添加您的逻辑并运行./gradlew shadowJar并提交带有 的罐子spark-submit,它已经包含所有罐子。或者,正如您提到的,您需要提供(尽管--jars--packages)所有必要的依赖项,包括 H2O.jar。

于 2017-01-06T08:20:17.247 回答