1

我正在尝试使用 Dask 和 Airflow 实现数据管道。我希望能够向现有 DAG 添加/删除节点,类似于 NodeJS 中的中间件。我的想法是腌制数据框,以便下一步可以在腌制之前对其进行任何转换并传递到下一步。但是使用 Dask 并行处理,下一个节点可以分配给任何工作人员。我正在考虑在本地拥有调度程序和一些工作人员。当我有一份大工作时,我可以解雇一些 EC2 工作人员来处理这项工作。有什么建议吗?

4

1 回答 1

1

您不需要显式序列化数据以自行传输。Dask 将自动为您在节点之间移动数据,并根据需要序列化数据。

于 2017-07-21T11:05:22.400 回答