6

由于我取消了一个耗时太长的任务实例(我们称之为任务 A),因此我的托管服务卡了几个Cloud Composer小时Airflow

我已经清除了所有 DAG 运行和任务实例,但是有几个作业正在运行,一个作业处于 Shutdown 状态(我想是任务 A 的作业)(我的作业的快照)。

此外,调度程序似乎没有运行,因为最近删除的 DAG 一直出现在仪表板中

有没有办法杀死作业或重置调度程序?任何摆脱作曲家的想法都将受到欢迎。

4

2 回答 2

7

您可以按如下方式重新启动调度程序:

从您的云壳:

1.确定您环境的 Kubernetes 集群:

gcloud composer environments describe ENVIRONMENT_NAME \
    --location LOCATION 

2.获取凭证并连接到Kubernetes集群:

gcloud container clusters get-credentials ${GKE_CLUSTER} --zone ${GKE_LOCATION}

3.运行以下命令重启调度器:

kubectl get deployment airflow-scheduler -o yaml | kubectl replace --force -f -

步骤 1 和 2 在此处详细说明。第 3 步基本上将“airflow-scheduler”部署替换为自身,从而重新启动服务。

如果重新启动调度程序没有帮助,您可能还需要重新创建您的 Composer 环境并在每次都发生这种情况时对您的 DAG 进行故障排除。

于 2018-08-15T14:21:54.557 回答
0

您正在运行哪个版本的 Composer?这是一个已知问题,工作可能会因测试版而卡住。Composer 1.0.0 和 1.1.0 应该看不到任何卡住的作业(SubDag 中的任务除外,这是一个已知的 Airflow 错误),请考虑迁移到最新的 Composer版本

于 2018-08-18T05:49:39.010 回答