我们有一个 HDP 2.6.4 spark 集群,有 10 台 linux worker 机器。
集群通过 HDFS 运行 spark 应用程序。HDFS 安装在所有工作人员上。
我们希望安装 presto 来查询集群的 HDFS,但是由于工作机器中缺乏 CPU 资源(每台机器只有 32 个内核),因此计划在集群外部安装 presto。
为此,我们有多个 ESX,每个 ESX 将有 2 个 VM,每个 VM 将运行一个 presto 服务器。
所有的 ESX 机器都将通过 10g 网卡连接到 spark 集群,这样两个集群就在同一个网络中。
我的问题是 - 我们可以在 VM 集群上安装 presto,尽管 HDFS 不在 ESX 集群上(而是在 spark 集群上)?
编辑:
我们得到的答案似乎是在 VM 上安装 presto 是标准的,所以我想澄清我的问题:
Presto 在 presto/etc 下有一个名为 hive.properties 的配置文件。
在该文件中有一个名为 hive.config.resources 的参数,其值如下:
/etc/hadoop/conf/presto-hdfs-site.xml,/etc/hadoop/conf/presto-core-site.xml
这些文件是 HDFS 配置文件,但由于 VM 集群和 spark 集群(包含 HDFS)是独立的(VM 集群上的 presto 应该访问驻留在 spark 集群上的 HDFS),问题是——
是否应该将这些文件从 spark 集群复制到 VM 集群?