1

我希望使用 Dataproc 工作流来运行顺序 Spark 作业。

根据文档,它需要:

  1. 创建工作流
  2. 按名称将作业添加到工作流
  3. 启动工作流程

为了将作业添加到工作流,您需要知道该作业的 ID。因此,您需要提交作业。但是一旦提交了所有作业,如何暂停它们,添加到工作流,然后使用这些作业运行工作流?

4

1 回答 1

0

除非您指定一个或多个作业依赖项,否则所有作业都会同时运行。您将是step-id为每项工作提供一份工作的人。

例子:

Hadoop作业“ foo ”添加到“ my-workflow ”模板。

gcloud dataproc workflow-templates add-job hadoop \
    --region=[region] \
    --step-id=foo \
    --workflow-template=my-workflow \
    -- [space separated job args]

将作业“ bar ”添加到“ my-workflow ”模板中,该模板将在工作流作业“ foo ”成功完成后运行。

> gcloud dataproc workflow-templates add-job [job-type] \
>     --region=[region] \
>     --step-id=bar \
>     --start-after=foo \
>     --workflow-template=my-workflow \
>     -- [space separated job args]

--start-after请注意指示您指定的作业将在该工作流作业之后运行的参数。通过这种方式,您可以按顺序运行 Spark 作业。

于 2020-11-05T08:42:09.397 回答