我有数百个我想要类似处理的 CSV 文件。为简单起见,我们可以假设它们都在./data/01_raw/
(like ./data/01_raw/1.csv
, ./data/02_raw/2.csv
) 等中。我宁愿不要给每个文件一个不同的名称,而是在构建我的管道时单独跟踪它们。我想知道是否有任何方法可以通过在catalog.yml
文件中指定某些内容来批量读取它们?
问问题
546 次
1 回答
7
您正在寻找PartitionedDataSet。在您的示例中,catalog.yml
可能如下所示:
my_partitioned_dataset:
type: "PartitionedDataSet"
path: "data/01_raw"
dataset: "pandas.CSVDataSet"
于 2020-05-06T22:41:21.827 回答