我希望使用 Dataproc 工作流来运行顺序 Spark 作业。
根据文档,它需要:
- 创建工作流
- 按名称将作业添加到工作流
- 启动工作流程
为了将作业添加到工作流,您需要知道该作业的 ID。因此,您需要提交作业。但是一旦提交了所有作业,如何暂停它们,添加到工作流,然后使用这些作业运行工作流?
我希望使用 Dataproc 工作流来运行顺序 Spark 作业。
根据文档,它需要:
为了将作业添加到工作流,您需要知道该作业的 ID。因此,您需要提交作业。但是一旦提交了所有作业,如何暂停它们,添加到工作流,然后使用这些作业运行工作流?
除非您指定一个或多个作业依赖项,否则所有作业都会同时运行。您将是step-id
为每项工作提供一份工作的人。
例子:
将Hadoop作业“ foo ”添加到“ my-workflow ”模板。
gcloud dataproc workflow-templates add-job hadoop \
--region=[region] \
--step-id=foo \
--workflow-template=my-workflow \
-- [space separated job args]
将作业“ bar ”添加到“ my-workflow ”模板中,该模板将在工作流作业“ foo ”成功完成后运行。
> gcloud dataproc workflow-templates add-job [job-type] \
> --region=[region] \
> --step-id=bar \
> --start-after=foo \
> --workflow-template=my-workflow \
> -- [space separated job args]
--start-after
请注意指示您指定的作业将在该工作流作业之后运行的参数。通过这种方式,您可以按顺序运行 Spark 作业。