0

我已经能够采购 4 台物理机来设置火花测试集群。数据将存储在 cassandra 中,计算将使用 spark(sql 和数据帧)完成。我计划使用 mesos,因为作为开发人员,我希望尽可能少地做基础设施工作。

但是,我发现的几乎所有教程都来自 mesophere,使用了他们的商业dcos基础设施。我能够将 dcos cli 配置为使用 marathon,但其中一位中间层支持人员告诉我,它可能无法很好地工作。

我能够安装 cassandra,但马拉松告诉我它的状态是“不健康”。Spark 甚至没有走那么远,Marathon 告诉我部署任务失败,但是没有 long,没有错误消息,什么都没有。

使用 mesos 只是个坏主意吗?有替代方案吗?关于如何让 cassandra 和 spark 运行的任何其他资源?我不介意买书。

更新:我在所有四台机器上运行 CentOS 7。这些机器有超过 20 GB 的内存、12 个 CPU 和大约 1TB 的磁盘。其中之一被设置为主节点(运行 zookeeper 和 mesos 主节点),其余机器是从机/客户端。

4

1 回答 1

0

嗯,有几篇关于如何安装集群的好文章,比如

不幸的是,您没有提供有关您的环境的太多详细信息,例如您正在使用的操作系统。

就个人而言,我以完全 docker 化的方式在 CoreOS 集群上运行 Mesos,这意味着 Mesos Master 和 Slaves 也在容器中运行。有兴趣的可以看看

查看我systemd在 CoreOS 上运行 Mesos 的设置。

关于 Spark,有几种方法可以让它在 Mesos 上运行。查看 Spark 文档

得到一个想法。此外,您可以在 Docker 容器中运行Spark-Jobserver,然后它将充当您的 Spark 作业的客户端应用程序(使用 REST API 等)。Dockerfile/图像位于

要在 Mesos 上将 Cassandra 作为框架运行,请查看

于 2015-10-23T07:55:21.303 回答