我一直在运行 kedro 教程(hello world 和 spaceflight),我想知道是否可以轻松地使用 Kedro 进行数据并行化。想象一下,我有一个需要在数百万个文件中执行的节点的情况。
我似乎有这个选项kedro run -p
,但这只做任务并行化(如此处所述https://kedro.readthedocs.io/en/latest/03_tutorial/04_create_pipelines.html)。
感谢您的任何反馈
我一直在运行 kedro 教程(hello world 和 spaceflight),我想知道是否可以轻松地使用 Kedro 进行数据并行化。想象一下,我有一个需要在数百万个文件中执行的节点的情况。
我似乎有这个选项kedro run -p
,但这只做任务并行化(如此处所述https://kedro.readthedocs.io/en/latest/03_tutorial/04_create_pipelines.html)。
感谢您的任何反馈
Kedro 有许多内置的 DataSet 类。对于 IO 并行化,有 SparkDataSet 将 IO 并行化委托给 PySpark https://kedro.readthedocs.io/en/latest/04_user_guide/09_pyspark.html#creating-a-sparkdataset
另一个数据集是 DaskDataSet,但这仍然是这个 PR https://github.com/quantumblacklabs/kedro/pull/97中的 WIP (如果你想使用 Dask,你可以看看这个 PR 并创建你自己的自定义数据集)