performance - DataProc 处理时间超过 3 小时，比预期的不到 15 分钟

Question

我已经迁移了一部分 C 应用程序以使用 PySpark 作业在 DataProc 上进行处理（读取和写入 Big Query - 数据量 - 大约 10 GB）。在本地数据中心运行 8 分钟的 C 应用程序在 Data Proc 上大约需要 4 小时。有人可以告诉我最佳的 Data Proc 配置吗？目前我正在使用以下一个：

--master-machine-type n2-highmem-32 --master-boot-disk-type pd-ssd --master-boot-disk-size 500 --num-workers 2 --worker-machine-type n2-highmem -32 --worker-boot-disk-type pd-ssd --worker-boot-disk-size 500 --image-version 1.4-debian10

非常感谢有关最佳数据处理配置的任何帮助。

谢谢， RP

score 0 · Accepted Answer

以下是一些关于 Dataproc 作业性能调优的好文章：Spark 作业调优技巧和10 个关于 Hadoop 和 Spark 集群性能的问题。

performance - DataProc 处理时间超过 3 小时，比预期的不到 15 分钟

1 回答 1

Related

Reference