我创建了一个具有特定environment.yaml
. 这是我用来创建该集群的命令:
gcloud dataproc clusters create dataproc-testing1
--enable-component-gateway
--bucket my-test-bucket
--region us-central1 --zone us-central1-c
--master-machine-type n1-standard-2
--master-boot-disk-size 32
--num-workers 3
--worker-machine-type n1-standard-2
--worker-boot-disk-size 32
--num-secondary-workers 3
--preemptible-worker-boot-disk-type
--preemptible-worker-boot-disk-size 32
--num-preemptible-worker-local-ssds 0
--image-version 2.0-ubuntu18
--properties dataproc:conda.env.config.uri=gs://my-test-bucket/environment.yaml
--optional-components JUPYTER
--scopes 'https://www.googleapis.com/auth/cloud-platform'
--project my-project
这样就成功创建了集群。
我已经能够通过 ssh 连接到主节点和执行程序节点,它们都有一个使用我在上面的集群创建命令中指定的环境pyspark
创建的环境。environment.yaml
所有依赖项都在那里,python 版本也是 3.9.7。
在 SSH 进入工作节点或主节点并运行后python --version
给了我Python 3.9.7
跑步conda env list
给了我
#
base /opt/conda/miniconda3
pyspark * /opt/conda/miniconda3/envs/pyspark
因此,激活的环境是pyspark
。
我可以停用此环境,conda deactivate
然后base
激活环境并python --version
导致Python 3.8.12
到目前为止,一切都如我所料。
现在,我从集群控制台的 Web 界面选项卡中运行了 jupyter notebook,问题是:
它只有“PySpark”(注意这与 pyspark 不同)、“Python3”、“spylon-kernel”、“R”内核可用。'R' 用于 R,'spylon-kernel' 用于 scala。
我激活“PySpark”内核并运行
import sys
sys.version
输出是
'3.8.12 | packaged by conda-forge | (default, Oct 12 2021, 21:59:51) \n[GCC 9.4.0]'
我激活“Python 3”内核并运行
import sys
sys.version
输出是
'3.8.12 | packaged by conda-forge | (default, Oct 12 2021, 21:59:51) \n[GCC 9.4.0]'
在这两个内核中,没有一个包environment.yaml
可用。
总之,我无法访问pyspark
由environment.yaml
.
你能帮我访问由pyspark
创建的环境environment.yaml
吗?