我正在建立一个火花簇。我在同一实例上有 hdfs 数据节点和 spark 主节点。
当前设置是 1-master(spark 和 hdfs)6-spark worker 和 hdfs 数据节点
所有实例都是相同的,16gig 双核(不幸的是)。
我还有 3 台机器,同样的规格。现在我有三个选择 1. 在这 3 台机器上部署 es 就可以了。集群看起来像 1-master(spark 和 hdfs) 6-spark worker 和 hdfs 数据节点 3-elasticsearch 节点
- 在 1 上部署 es master,在所有其他上扩展 spark 和 hdfs 和 es。集群看起来像 1-master(spark 和 hdfs) 1-master elasticsearch 8-spark worker、hdfs 数据节点、es 数据节点
我的应用程序大量使用 spark 进行连接、ml 等,但我们正在寻找搜索功能。搜索我们绝对不需要实时,长达 30 分钟的刷新间隔对我们来说甚至很好。
同时spark集群除了es索引之外还有其他长时间运行的任务。
解决方案不必是上述之一,如果有人建议,我愿意进行实验。一旦结束,其他开发人员也会很方便。
我也在尝试使用 es hadoop、es-spark 项目,但如果我做 3 个专用节点,我觉得摄取非常慢,就像每分钟 60 万条记录。