amazon-web-services - 胶水爬虫读取模式匹配的 s3 文件

Question

在指定s3 pathin 时AWS Glue Crawler，我们是否可以提及一些模式以使爬虫仅读取具有特定名称的文件 ins3 folder而不是读取路径中的每个文件？

就像是 s3://sample_folder/sample_file%pattern%.csv.

score 2 · Accepted Answer

不幸的是，Glue 不支持包含过滤器的正则表达式。您可以指定文件夹路径并设置排除规则。例如，路径是s3://sample_folder和排除模式*.{txt,avro}以过滤掉所有 txt 和 avro 文件。

有关更多详细信息，请参阅包含和排除模式。

score 0 · Accepted Answer

您必须编写胶水作业并使用spark.read方法来使用正则表达式。Crawler 不支持包含正则表达式。

score 0 · Accepted Answer

嘿，您可以使用排除模式功能以仅选择您想要的文件，例如将所有您不想要的模式保留在排除模式中，然后只考虑您想要的模式。插入和排除模式

3 回答 3