-1

我正在尝试将本地运行的 PySpark 会话连接到 DataProc 集群。我希望能够在不下载 gcs 的情况下使用文件。我的目标是使用本地 Spark 执行临时分析,然后在我准备好扩展时切换到更大的集群。我意识到 DataProc 在 Yarn 上运行 Spark,并且我已经在本地复制了 yarn-site.xml。我还打开了从本地机器到 DataProc 主节点的 ssh 隧道,并为 yarn xml 中标识的端口设置端口转发。但它似乎不起作用,当我尝试在 Jupyter 笔记本中创建会话时,它会无限期地挂起。我看不到 stdout 或 DataProc 日志中的任何内容。有没有人在这方面取得成功?

4

1 回答 1

0

对于任何感兴趣的人,我最终放弃了这种方法。我改为在主节点上运行 Jupyter Enterprise Gateway,设置端口转发,然后在本地启动我的笔记本以连接到服务器上运行的内核。到目前为止它工作得很好。

于 2022-01-14T21:11:49.543 回答