在指定s3 path
in 时AWS Glue Crawler
,我们是否可以提及一些模式以使爬虫仅读取具有特定名称的文件 ins3 folder
而不是读取路径中的每个文件?
就像是
s3://sample_folder/sample_file%pattern%.csv.
在指定s3 path
in 时AWS Glue Crawler
,我们是否可以提及一些模式以使爬虫仅读取具有特定名称的文件 ins3 folder
而不是读取路径中的每个文件?
就像是
s3://sample_folder/sample_file%pattern%.csv.
不幸的是,Glue 不支持包含过滤器的正则表达式。您可以指定文件夹路径并设置排除规则。例如,路径是s3://sample_folder
和排除模式*.{txt,avro}
以过滤掉所有 txt 和 avro 文件。
有关更多详细信息,请参阅包含和排除模式。
您必须编写胶水作业并使用spark.read
方法来使用正则表达式。Crawler 不支持包含正则表达式。
嘿,您可以使用排除模式功能以仅选择您想要的文件,例如将所有您不想要的模式保留在排除模式中,然后只考虑您想要的模式。插入和排除模式