问题标签 [aws-glue-workflow]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
0 回答
22 浏览

amazon-web-services - AWS Glue Crawler 在读取空文件时创建多个表

我正在编写一个 Glue Crawler 作为 ETL 的一部分,但我遇到了一个非常烦人的问题 - 我正在抓取的 S3 存储桶包含许多不同的 JSON 文件,它们都具有相同的架构。爬取存储桶时,爬虫为每个空文件创建一个新表,为非空文件创建一个附加表。

当手动删除空文件并运行爬虫时 - 我得到了预期的行为,使用非空文件数据创建了一个表。

有没有办法避免这种情况?我在抓取之前删除空文件时遇到问题。

非常感谢。