我正在尝试使用 Dask 和 Airflow 实现数据管道。我希望能够向现有 DAG 添加/删除节点,类似于 NodeJS 中的中间件。我的想法是腌制数据框,以便下一步可以在腌制之前对其进行任何转换并传递到下一步。但是使用 Dask 并行处理,下一个节点可以分配给任何工作人员。我正在考虑在本地拥有调度程序和一些工作人员。当我有一份大工作时,我可以解雇一些 EC2 工作人员来处理这项工作。有什么建议吗?
问问题
303 次
我正在尝试使用 Dask 和 Airflow 实现数据管道。我希望能够向现有 DAG 添加/删除节点,类似于 NodeJS 中的中间件。我的想法是腌制数据框,以便下一步可以在腌制之前对其进行任何转换并传递到下一步。但是使用 Dask 并行处理,下一个节点可以分配给任何工作人员。我正在考虑在本地拥有调度程序和一些工作人员。当我有一份大工作时,我可以解雇一些 EC2 工作人员来处理这项工作。有什么建议吗?