kedro - 使用数据并行化运行管道

Question

我一直在运行 kedro 教程（hello world 和 spaceflight），我想知道是否可以轻松地使用 Kedro 进行数据并行化。想象一下，我有一个需要在数百万个文件中执行的节点的情况。

我似乎有这个选项kedro run -p，但这只做任务并行化（如此处所述https://kedro.readthedocs.io/en/latest/03_tutorial/04_create_pipelines.html）。

感谢您的任何反馈

score 3 · Accepted Answer

Kedro 有许多内置的 DataSet 类。对于 IO 并行化，有 SparkDataSet 将 IO 并行化委托给 PySpark https://kedro.readthedocs.io/en/latest/04_user_guide/09_pyspark.html#creating-a-sparkdataset

另一个数据集是 DaskDataSet，但这仍然是这个 PR https://github.com/quantumblacklabs/kedro/pull/97中的 WIP （如果你想使用 Dask，你可以看看这个 PR 并创建你自己的自定义数据集)

1 回答 1