我已经能够采购 4 台物理机来设置火花测试集群。数据将存储在 cassandra 中,计算将使用 spark(sql 和数据帧)完成。我计划使用 mesos,因为作为开发人员,我希望尽可能少地做基础设施工作。
但是,我发现的几乎所有教程都来自 mesophere,使用了他们的商业dcos基础设施。我能够将 dcos cli 配置为使用 marathon,但其中一位中间层支持人员告诉我,它可能无法很好地工作。
我能够安装 cassandra,但马拉松告诉我它的状态是“不健康”。Spark 甚至没有走那么远,Marathon 告诉我部署任务失败,但是没有 long,没有错误消息,什么都没有。
使用 mesos 只是个坏主意吗?有替代方案吗?关于如何让 cassandra 和 spark 运行的任何其他资源?我不介意买书。
更新:我在所有四台机器上运行 CentOS 7。这些机器有超过 20 GB 的内存、12 个 CPU 和大约 1TB 的磁盘。其中之一被设置为主节点(运行 zookeeper 和 mesos 主节点),其余机器是从机/客户端。