1

我在 AWS S3 存储桶中有一个文件“v1.02_train.tar”(来自 Lyft 数据集https://level5.lyft.com/dataset/)。我正在尝试将其添加到 AWS Glue 数据目录。

如何让 AWS Glue 爬虫从 .tar 文件中检测架构?我对解压缩文件犹豫不决,因为爬虫将分别对每个图像文件进行编目,将数百万个表添加到数据目录中。此外,它将增加 S3 存储桶的大小,从而使存储变得更加昂贵。

关于如何最好地编目这个文件集合的任何想法?

4

0 回答 0