2

CSVS3DataSet//使用HDFS3DataSet,已知不是线程安全的https://boto3.amazonaws.com/v1/documentation/api/latest/guide/resources.html?highlight=multithreading#multithreading-multiprocessingHDFS3DataSetboto3

可以将这些数据集与 ParallelRunner 一起使用吗?

4

1 回答 1

2

Kedrouses s3fs,它使用boto3库来访问 S3。Boto3确实不是线程安全的,但前提是您尝试重用相同的 Session 对象。

所有KedroS3 数据集都维护单独的实例S3FileSystem,这意味着单独的 boto 会话,因此它是安全的。

就性能而言,它可能不是很好,如果您并行处理数百个 S3 数据集,或按顺序处理数千个小型 S3 数据集 - 管道可能会运行很长时间,甚至因连接错误而失败,但您完全可以安全地使用几十个。

于 2019-11-18T09:26:04.940 回答