我的 s3 存储桶上有几张桌子。这些表在内存大小和文件数量上都很大,它们存储在 JSON(次优,我知道)中并且有很多分区。
现在我想启用 AWS Glue 数据目录和 AWS Glue 爬虫,但是我对遍历所有数据的爬虫的价格感到害怕。
架构不会经常更改,因此无需遍历 S3 上的所有文件。
默认情况下,Crawlers 会遍历所有文件吗?是否可以配置一个更智能的采样策略,只查看部分文件而不是所有文件?
我的 s3 存储桶上有几张桌子。这些表在内存大小和文件数量上都很大,它们存储在 JSON(次优,我知道)中并且有很多分区。
现在我想启用 AWS Glue 数据目录和 AWS Glue 爬虫,但是我对遍历所有数据的爬虫的价格感到害怕。
架构不会经常更改,因此无需遍历 S3 上的所有文件。
默认情况下,Crawlers 会遍历所有文件吗?是否可以配置一个更智能的采样策略,只查看部分文件而不是所有文件?