1

我们有非常复杂的管道,我们需要对其进行组合和调度。我看到 Hadoop 生态系统为此提供了 Oozie。当我在 Mesos 或 Standalone 上运行 Spark 并且没有 Hadoop 集群时,基于 Spark 的作业有哪些选择?

4

2 回答 2

0

在 Yarn 的情况下可以使用 Oozie,对于 Spark,没有可用的内置调度程序,因此您可以自由选择任何在集群模式下工作的调度程序。

对于 Mesos,我认为 Chronos 将是正确的选择,有关Chronos的更多信息

于 2015-11-25T12:58:13.323 回答
0

与 Hadoop 不同,使用 Spark 链接事物非常容易。所以编写一个 Spark Scala 脚本可能就足够了。我的第一个建议是绑定。

如果你喜欢保持 SQL 一样,你可以试试 SparkSQL。

如果您有一个非常复杂的流程,那么值得查看 Google 数据流https://github.com/GoogleCloudPlatform/DataflowJavaSDK

于 2015-11-26T04:08:58.427 回答