我正在尝试在我在 dataproc 上运行的 presto 集群上运行查询 - 通过本地机器上的 python(使用来自 pyhive 的 presto)。但我似乎无法弄清楚主机 URL。GCP dataproc 甚至允许远程访问 presto 集群吗?
我尝试在 Presto 的 Web UI 上使用 URL,但这也不起作用。我还查看了有关使用 Python 的云客户端库的文档。也没有帮助。https://cloud.google.com/dataproc/docs/tutorials/python-library-example
from pyhive import presto
query = '''select * FROM system.runtime.nodes'''
presto_conn = presto.Connection(host={host}, port=8060, username ={user})
presto_cursor = presto_conn.cursor()
presto_cursor.execute(query)
错误
ConnectionError: HTTPConnectionPool(host='https', port=80): Max retries exceeded with url: {url}
(Caused by NewConnectionError('<urllib3.connection.HTTPConnection object at 0x7fb41c0c25d0>: Failed to establish a new connection: [Errno 8] nodename nor servname provided, or not known'))
更新 我能够在 GCP 计算上手动创建一个虚拟机,配置 trino 并设置防火墙规则和负载均衡器,以便能够访问集群。
必须检查 dataproc 是否允许类似的配置。