google-cloud-platform - 在 Google Cloud DataProc 上安排 cron 作业

Question

我目前有一个部署在 DataProc 集群上的 PySpark 作业（1 个主节点和 4 个具有足够核心和内存的工作节点）。该作业在数百万条记录上运行并执行昂贵的计算（多边形中的点）。我能够自己成功地运行这项工作。但是，我想安排在每月 7 日运行该作业。

我正在寻找的是在 DataProc 集群上设置 cron 作业的最有效方法。我试图阅读 Cloud Scheduler，但它并没有准确解释它如何与 DataProc 集群结合使用。在 DataProc 上查看 cron 作业的示例或在 DataProc 上专门与 Scheduler 一起工作的一些文档将非常有帮助。

提前致谢！

score 3 · Accepted Answer

对于计划的 Dataproc 交互（创建集群、提交作业、等待作业、删除集群同时处理错误），Dataproc 的 Workflow Templates API 是比尝试自己编排这些交互更好的选择。一个关键优势是工作流是即发即弃的，创建的任何集群也将在完成时被删除。

如果您的工作流模板相对简单，以至于它的参数在调用之间不会改变，那么更简单的调度方法是使用Cloud Scheduler. Cloud Functions如果您需要运行工作流来响应 GCS 中的文件或 PubSub 中的事件，这是一个不错的选择。最后，Cloud Composer如果您的工作流程参数是动态的或混合使用其他 GCP 产品，那就太好了。

假设您的用例是使用相同参数的简单运行工作流程，我将演示使用Cloud Scheduler：

我在我的项目中创建了一个名为terasort-example.

然后我在我的项目中创建了一个新的服务帐户，调用workflow-starter@example.iam.gserviceaccount.com并赋予它Dataproc Editor角色；然而，更受限制的东西dataproc.workflows.instantiate也足够了。

启用Cloud SchedulerAPI 后，我前往 Developers Console 中的 Cloud Scheduler。我创建了一个工作如下：

目标：HTTP

网址：https ://dataproc.googleapis.com/v1/projects/example/regions/global/workflowTemplates/terasort-example:instantiate?alt=json

HTTP 方法：POST

身体： {}

身份验证标头：OAuth 令牌

服务帐号：workflow-starter@example.iam.gserviceaccount.com

范围：（留空）

您可以通过单击来测试它Run Now。

请注意，您还可以将正文中的整个工作流内容复制为 JSON 有效负载。URL 的最后一部分将变为workflowTemplates:instantiateInline?alt=json

查看这个讨论其他调度选项的官方文档。

score 2 · Accepted Answer

请参阅其他答案以获得更全面的解决方案

您需要做的是从 Cloud Scheduler 将事件发布到 pubsub 主题，然后让 Cloud Function 对该事件做出反应。

下面是使用 Cloud Function 触发 Dataproc 的完整示例： How can I run create Dataproc cluster, run job, delete cluster from Cloud Function

google-cloud-platform - 在 Google Cloud DataProc 上安排 cron 作业

2 回答 2

Related

Reference