4

我有数百个我想要类似处理的 CSV 文件。为简单起见,我们可以假设它们都在./data/01_raw/(like ./data/01_raw/1.csv, ./data/02_raw/2.csv) 等中。我宁愿不要给每个文件一个不同的名称,而是在构建我的管道时单独跟踪它们。我想知道是否有任何方法可以通过在catalog.yml文件中指定某些内容来批量读取它们?

4

1 回答 1

7

您正在寻找PartitionedDataSet。在您的示例中,catalog.yml可能如下所示:

my_partitioned_dataset:
  type: "PartitionedDataSet"
  path: "data/01_raw"
  dataset: "pandas.CSVDataSet"
于 2020-05-06T22:41:21.827 回答