0

有谁知道我在哪里可以找到 GCP 的 dataproc 的 docker 映像?我使用过 dataproc 集群,发现它们非常好,但我想在本地开发,并且只有在我准备好处理大型工作时才将我的计算转移到云端。我找到了一些可与 pyspark 一起使用的 docker 映像,但我希望获得与 GCP dataproc 一样流畅的东西。

4

1 回答 1

1

您可以在这个cloud-dataproc Container Registry中找到基础镜像,这些镜像构建在Compute Image OS之上。从那里,您可以使用 pull 命令在本地获取 Dataproc 基础映像。

您可以使用 spark 文件夹下的基本映像。可以使用以下命令拉取所需的基础映像并在 Dataproc 映像上运行 spark 作业。我尝试了 Dataproc 2.0 映像,但可以在同一文件夹中找到其他版本。

# Pulling the required image
docker pull gcr.io/cloud-dataproc/spark/dataproc_2.0:preview-0.3

# Sample PySpark job
sudo docker run -v /home/sample-spark-app:/home/sample-spark-app d4e6c561de5b spark-submit --master local[4] /home/sample-spark-app/pi.py

# Sample Spark (Java API) job
sudo docker run -v /home/sample-spark-app:/home/sample-spark-app d4e6c561de5b spark-submit --class "JavaSparkPi" --master local[4] /home/sample-spark-app/target/simple-project-1.0.jar

如果您想在基础镜像之上使用其他功能,请查看gcr.io/cloud-dataproc下的其他 spark 镜像。

于 2021-10-14T11:15:59.553 回答