我想在 Dataproc 实例或一般的Google Cloud Platform上运行Presto。如何轻松设置和安装 Presto,尤其是使用 Hive?
2 回答
您可以对 Cloud Dataproc 集群使用初始化操作来快速安装和配置 Presto。具体来说,有一个带有初始化操作的GitHub存储库。Presto 初始化操作可让您快速安装和配置 Presto。
如果您想使用 Presto WebUI,一旦集群在线,您可以按照以下说明创建集群的 SSH 隧道和 SOCKS 代理。8080
从那里,您可以在主节点上的端口上访问 Presto(默认情况下,除非您更改它) 。
现在有一个官方教程Use Presto with Google Cloud Dataproc。本质上,您可以
- 使用 Presto 初始化操作创建集群:
gcloud dataproc clusters create presto-cluster \
--project=${PROJECT} \
--zone=${ZONE} \
--num-workers=${WORKERS} \
--scopes=cloud-platform \
--initialization-actions=gs://dataproc-initialization-actions/presto/presto.sh
- 创建从本地计算机到主节点的 SSH 隧道:
gcloud compute ssh presto-cluster-m \
--project=${PROJECT} \
--zone=${ZONE} \
-- -D 1080 -N
- 通过 SSH 隧道使用 Presto CLI 连接到 Presto 协调器:
./presto-cli \
--server presto-cluster-m:8080 \
--socks-proxy localhost:1080 \
--catalog hive \
--schema default