0

在指定s3 pathin 时AWS Glue Crawler,我们是否可以提及一些模式以使爬虫仅读取具有特定名称的文件 ins3 folder而不是读取路径中的每个文件?

就像是 s3://sample_folder/sample_file%pattern%.csv.

4

3 回答 3

2

不幸的是,Glue 不支持包含过滤器的正则表达式。您可以指定文件夹路径并设置排除规则。例如,路径是s3://sample_folder和排除模式*.{txt,avro}以过滤掉所有 txt 和 avro 文件。

有关更多详细信息,请参阅包含和排除模式

于 2019-07-31T20:08:15.807 回答
0

您必须编写胶水作业并使用spark.read方法来使用正则表达式。Crawler 不支持包含正则表达式。

于 2019-08-13T21:03:47.887 回答
0

嘿,您可以使用排除模式功能以仅选择您想要的文件,例如将所有您不想要的模式保留在排除模式中,然后只考虑您想要的模式。插入和排除模式

于 2021-02-23T05:53:16.920 回答