amazon-web-services - 使用 AWS Glue 爬虫进行智能采样

Question

我的 s3 存储桶上有几张桌子。这些表在内存大小和文件数量上都很大，它们存储在 JSON（次优，我知道）中并且有很多分区。

现在我想启用 AWS Glue 数据目录和 AWS Glue 爬虫，但是我对遍历所有数据的爬虫的价格感到害怕。

架构不会经常更改，因此无需遍历 S3 上的所有文件。

默认情况下，Crawlers 会遍历所有文件吗？是否可以配置一个更智能的采样策略，只查看部分文件而不是所有文件？

score 1 · Accepted Answer

根据您的存储桶结构，您可能只使用排除路径并将爬虫指向您想要爬取的特定前缀。如果分区是 hive 风格的分区，那么你可以利用 Athena 执行 msck repair table 来添加分区。或者，您可以在 Athena 中手动创建表并运行 msck repair，如果您有很多分区并且文件很大，那么这势必需要很长时间。

amazon-web-services - 使用 AWS Glue 爬虫进行智能采样

1 回答 1

Related

Reference