问题标签 [aws-glue-workflow]

问问题

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

41 问题

0 投票

0 回答

22 浏览

amazon-web-services - AWS Glue Crawler 在读取空文件时创建多个表

我正在编写一个 Glue Crawler 作为 ETL 的一部分，但我遇到了一个非常烦人的问题 - 我正在抓取的 S3 存储桶包含许多不同的 JSON 文件，它们都具有相同的架构。爬取存储桶时，爬虫为每个空文件创建一个新表，为非空文件创建一个附加表。

当手动删除空文件并运行爬虫时 - 我得到了预期的行为，使用非空文件数据创建了一个表。

有没有办法避免这种情况？我在抓取之前删除空文件时遇到问题。

非常感谢。

2022-02-15T14:19:09.050

1 2 3 4 5 6 7 8 9 10

问题标签 [aws-glue-workflow]

amazon-web-services - AWS Glue Crawler 在读取空文件时创建多个表

Reference