apache-flink - 使用 flink/kubernetes 替换 etl 作业（在 ssis 上）：每个作业类型一个 flink 集群或每个作业执行创建和销毁 flink 集群

Question

我试图看看用 apache flink 作业（以及 kuberentes 作为底层基础）替换使用 SSIS 包创建的数百个提要文件 ETL 作业的可行性。我在一些文章中看到的一个建议是“将一个 flink 集群用于一种类型的工作”。

由于我每天每种作业类型都有少量作业，那么这意味着对我来说最好的方法是在执行作业时动态创建 flinkcluster 并销毁它以释放资源，这是正确的方法吗？我正在设置没有作业管理器的 flinkcluster。

关于使用 flink 进行批处理 ETL 活动的最佳实践的任何建议。

可能是最重要的问题：flink 是问题陈述的正确解决方案，还是我应该更多地研究 Talend 和其他经典 ETL 工具？

score 0 · Accepted Answer

Flink 非常适合运行 ETL 工作负载。这两种部署模式为您提供以下属性：

会话集群

会话集群允许在同一组资源上运行多个作业 ( TaskExecutors)。在提交任何资源之前启动会话集群。

作业之间没有严格的隔离
- 作业导致的失败A会导致作业B重启
- 作业A与作业在同一个 JVM 中运行，B因此如果statics使用它会影响它

每个作业集群为每个作业启动一个专用的 Flink 集群。