我有一个时间表,每天运行两次我的流程 - 在 0910 和 1520 BST。
这产生了大量的 DataFlow 作业 - 到目前为止,今天仅第二个计划 (1520) 已经产生了80个作业:
$ gcloud dataflow jobs list
JOB_ID NAME TYPE CREATION_TIME STATE REGION
2018-07-29_12_17_06-14876588186269022154 project-name-513008-by-username Batch 2018-07-29 19:17:07 Running us-central1
2018-07-29_12_14_54-6436458673562317581 project-name-512986-by-username Batch 2018-07-29 19:14:55 Cancelled us-central1
2018-07-29_12_13_55-6167618802124600084 project-name-512985-by-username Batch 2018-07-29 19:13:57 Cancelled us-central1
...
在上周 DataPrep 更新后的几天里,我无法访问流的运行设置 URL。我怀疑作为运行设置的一部分,有一个过程会返回流程(我有 12 个由参考数据集链接的流程)并对其进行完整性检查 - 似乎我的流程正处于足够复杂的风口浪尖上页面加载超时,我不得不删掉几个步骤才能进入运行设置。
我想知道是否每次超时,它都会以某种方式重复计划或过程中的其他东西 - 但话又说回来,重复作业的数量是不一致的。
我最近在看到一些采样错误问题后重建了这个项目(因为样本已损坏,因此我无法加载转换 UI,也无法构建新样本)。经过大量尝试解决该问题后,我抓住机会将其重新构建为具有结构改进等的专用 GCP 项目。在重新构建之前我没有看到此调度错误。