我试图弄清楚如何在本地和 S3 上存储中间 Kedro 管道对象。特别是,假设我在 S3 上有一个数据集:
my_big_dataset.hdf5:
type: kedro.extras.datasets.pandas.HDFDataSet
filepath: "s3://my_bucket/data/04_feature/my_big_dataset.hdf5"
我想通过它们的 S3 URI 在目录中引用这些对象,以便我的团队可以使用它们。但是,我想避免每次运行管道时都重新下载数据集、模型权重等,方法是在 S3 副本之外保留本地副本。如何使用 Kedro 镜像文件?