amazon-web-services - AWS Glue Crawler 在读取空文件时创建多个表

翻译自：https://stackoverflow.com/questions/71128047 2022-02-15T14:19:09.050

22 次

我正在编写一个 Glue Crawler 作为 ETL 的一部分，但我遇到了一个非常烦人的问题 - 我正在抓取的 S3 存储桶包含许多不同的 JSON 文件，它们都具有相同的架构。爬取存储桶时，爬虫为每个空文件创建一个新表，为非空文件创建一个附加表。

当手动删除空文件并运行爬虫时 - 我得到了预期的行为，使用非空文件数据创建了一个表。

有没有办法避免这种情况？我在抓取之前删除空文件时遇到问题。

非常感谢。

0 回答 0