我有一个 S3 位置s3://bucket-name/folder-name/
,其中包含一个子文件夹,其名称是动态生成的,其中包含短语_Top10InvoiceIds
. 该子文件夹由.csv
和.csv.metadata
文件组成。我正在使用胶水爬虫仅爬取 csv 文件并在 Athena 中查看它们。但我无法排除这些.csv.metadata
文件。我已经尝试了所有可能的正则表达式模式作为 glob 值。
我的一些尝试是:
*_Top10InvoiceIds/ *.metadata
*_Top10InvoiceIds/ * .* metadata
*_Top10InvoiceIds/ *. *.metadata
*_Top10InvoiceIds/ * .csv.metadata
** .metadata
* .metadata
* .csv.metadata
* /*.metadata
如果有人可以帮助我找出模式或提出另一种方法来做同样的事情,那就太好了。