1

我创建了一个具有特定environment.yaml. 这是我用来创建该集群的命令:

gcloud dataproc clusters create dataproc-testing1 
--enable-component-gateway 
--bucket my-test-bucket 
--region us-central1 --zone us-central1-c 
--master-machine-type n1-standard-2 
--master-boot-disk-size 32 
--num-workers 3 
--worker-machine-type n1-standard-2 
--worker-boot-disk-size 32 
--num-secondary-workers 3 
--preemptible-worker-boot-disk-type 
--preemptible-worker-boot-disk-size 32 
--num-preemptible-worker-local-ssds 0 
--image-version 2.0-ubuntu18 
--properties dataproc:conda.env.config.uri=gs://my-test-bucket/environment.yaml 
--optional-components JUPYTER 
--scopes 'https://www.googleapis.com/auth/cloud-platform' 
--project my-project

这样就成功创建了集群。

我已经能够通过 ssh 连接到主节点和执行程序节点,它们都有一个使用我在上面的集群创建命令中指定的环境pyspark创建的环境。environment.yaml所有依赖项都在那里,python 版本也是 3.9.7。

在 SSH 进入工作节点或主节点并运行后python --version给了我Python 3.9.7

跑步conda env list给了我

#
base                     /opt/conda/miniconda3
pyspark               *  /opt/conda/miniconda3/envs/pyspark

因此,激活的环境是pyspark

我可以停用此环境,conda deactivate然后base激活环境并python --version导致Python 3.8.12

到目前为止,一切都如我所料。

现在,我从集群控制台的 Web 界面选项卡中运行了 jupyter notebook,问题是:

它只有“PySpark”(注意这与 pyspark 不同)、“Python3”、“spylon-kernel”、“R”内核可用。'R' 用于 R,'spylon-kernel' 用于 scala。

我激活“PySpark”内核并运行

import sys
sys.version

输出是

'3.8.12 | packaged by conda-forge | (default, Oct 12 2021, 21:59:51) \n[GCC 9.4.0]'

我激活“Python 3”内核并运行

import sys
sys.version

输出是 '3.8.12 | packaged by conda-forge | (default, Oct 12 2021, 21:59:51) \n[GCC 9.4.0]'

在这两个内核中,没有一个包environment.yaml可用。

总之,我无法访问pysparkenvironment.yaml.

你能帮我访问由pyspark创建的环境environment.yaml吗?

4

0 回答 0