1

我正在通过aws glue. 但是我对数据库定义有点困惑。根据我在 aws doc 中可以找到的内容,A database in the AWS Glue Data Catalog is a container that holds tables. You use databases to organize your tables into separate categories.. 我想知道数据库到底包含什么。它是否从其他数据源加载所有数据并在其上创建目录?还是只包含目录?我如何知道胶水数据库中表的大小?它使用什么类型的数据库,例如nosqlrds

例如,我创建了一个爬虫来从中加载数据s3并在glue. 该glue表是否包含来自 的所有数据s3 bucket?如果我删除s3存储桶,它是否会对针对爬虫创建的目录表运行的胶水中的其他作业产生影响?

如果目录表仅包含数据架构,如果我的数据源被修改,我如何保持它更新到数据?

4

1 回答 1

0

目录只是一个元数据存储。它的任务是记录存在于其他地方的数据,并将其导出到其他工具,如 Athena 或 EMR,以便他们可以发现数据。

数据不会复制到目录中,而是保留在源中。如果您从目录中删除表,源中的数据将保持不变。

如果您删除原始数据(如您在问题中所述),其他服务将无法再访问数据,因为它已被删除。如果您再次运行爬虫,它应该会检测到它不存在。

如果要使爬虫模式保持最新,您可以安排爬虫的自动运行,或者在数据更改时按需执行。当爬虫再次运行时,它将相应地更新记录数、分区数,甚至模式中的更改。请参阅文档以查看架构中的更改可能对您的目录产生的影响。

于 2019-07-25T17:34:11.233 回答