0

我正在编写一个 Glue Crawler 作为 ETL 的一部分,但我遇到了一个非常烦人的问题 - 我正在抓取的 S3 存储桶包含许多不同的 JSON 文件,它们都具有相同的架构。爬取存储桶时,爬虫为每个空文件创建一个新表,为非空文件创建一个附加表。

当手动删除空文件并运行爬虫时 - 我得到了预期的行为,使用非空文件数据创建了一个表。

有没有办法避免这种情况?我在抓取之前删除空文件时遇到问题。

非常感谢。

4

0 回答 0