python - 如何将许多 CSV 文件添加到 Kedro 的目录中？

Question

我有数百个我想要类似处理的 CSV 文件。为简单起见，我们可以假设它们都在./data/01_raw/(like ./data/01_raw/1.csv, ./data/02_raw/2.csv) 等中。我宁愿不要给每个文件一个不同的名称，而是在构建我的管道时单独跟踪它们。我想知道是否有任何方法可以通过在catalog.yml文件中指定某些内容来批量读取它们？

score 7 · Accepted Answer

您正在寻找PartitionedDataSet。在您的示例中，catalog.yml可能如下所示：

my_partitioned_dataset:
  type: "PartitionedDataSet"
  path: "data/01_raw"
  dataset: "pandas.CSVDataSet"

python - 如何将许多 CSV 文件添加到 Kedro 的目录中？

1 回答 1

Related

Reference