由于我取消了一个耗时太长的任务实例(我们称之为任务 A),因此我的托管服务卡了几个Cloud Composer
小时Airflow
我已经清除了所有 DAG 运行和任务实例,但是有几个作业正在运行,一个作业处于 Shutdown 状态(我想是任务 A 的作业)(我的作业的快照)。
此外,调度程序似乎没有运行,因为最近删除的 DAG 一直出现在仪表板中
有没有办法杀死作业或重置调度程序?任何摆脱作曲家的想法都将受到欢迎。
由于我取消了一个耗时太长的任务实例(我们称之为任务 A),因此我的托管服务卡了几个Cloud Composer
小时Airflow
我已经清除了所有 DAG 运行和任务实例,但是有几个作业正在运行,一个作业处于 Shutdown 状态(我想是任务 A 的作业)(我的作业的快照)。
此外,调度程序似乎没有运行,因为最近删除的 DAG 一直出现在仪表板中
有没有办法杀死作业或重置调度程序?任何摆脱作曲家的想法都将受到欢迎。
您可以按如下方式重新启动调度程序:
从您的云壳:
1.确定您环境的 Kubernetes 集群:
gcloud composer environments describe ENVIRONMENT_NAME \
--location LOCATION
2.获取凭证并连接到Kubernetes集群:
gcloud container clusters get-credentials ${GKE_CLUSTER} --zone ${GKE_LOCATION}
3.运行以下命令重启调度器:
kubectl get deployment airflow-scheduler -o yaml | kubectl replace --force -f -
步骤 1 和 2 在此处详细说明。第 3 步基本上将“airflow-scheduler”部署替换为自身,从而重新启动服务。
如果重新启动调度程序没有帮助,您可能还需要重新创建您的 Composer 环境并在每次都发生这种情况时对您的 DAG 进行故障排除。
您正在运行哪个版本的 Composer?这是一个已知问题,工作可能会因测试版而卡住。Composer 1.0.0 和 1.1.0 应该看不到任何卡住的作业(SubDag 中的任务除外,这是一个已知的 Airflow 错误),请考虑迁移到最新的 Composer版本。