我的团队目前正在寻找一个相当昂贵的 ETL 工具的替代品,在这一点上,我们正在将其用作美化的调度程序。ETL 工具提供的任何集成我们都使用我们自己的 python 代码进行了改进,所以我真的只需要它的调度能力。我们正在研究的一个选项是我目前正在试用的数据管道。
因此,我的问题是:假设我们有两个要加载的数据集——产品和销售。这些数据集中的每一个都需要多个步骤来加载(获取源数据、调用 python 脚本进行转换、加载到 Redshift)。但是,产品需要在销售运行之前加载,因为我们需要产品成本等来计算利润。是否可以在 Data Pipeline 中有一个“主”管道先调用产品,等待其成功完成,然后再调用销售?如果是这样,怎么做?如果 Data Pipeline 不适合这种类型的工作流程,我也愿意接受其他产品建议。感谢帮助