我正在尝试将本地运行的 PySpark 会话连接到 DataProc 集群。我希望能够在不下载 gcs 的情况下使用文件。我的目标是使用本地 Spark 执行临时分析,然后在我准备好扩展时切换到更大的集群。我意识到 DataProc 在 Yarn 上运行 Spark,并且我已经在本地复制了 yarn-site.xml。我还打开了从本地机器到 DataProc 主节点的 ssh 隧道,并为 yarn xml 中标识的端口设置端口转发。但它似乎不起作用,当我尝试在 Jupyter 笔记本中创建会话时,它会无限期地挂起。我看不到 stdout 或 DataProc 日志中的任何内容。有没有人在这方面取得成功?
问问题
25 次