2

我们有一个现有的基础架构,我们正在通过 aws 爬虫爬取 S3 目录。这些 S3 目录是作为 AWS datalake 的一部分创建的,并通过 spark 作业转储。现在为了实现 delta 功能,我们在 deltalake 上进行了 POC。因此,当我通过 spark-delta Jobs 在 S3 中编写这些 deltalake 文件时,我的爬虫无法从这些爬虫创建表。

我们可以使用 AWS 爬虫来爬取 delta Lake 文件吗?

4

1 回答 1

2

根据此文档,您不应该使用 Glue crawler。您应该使用清单文件delta 文件与 Athena 集成。

警告

不要在位置上使用 AWS Glue Crawler 来定义 AWS Glue 中的表。Delta Lake 维护着多个版本的表对应的文件,查询所有被 Glue 爬取的文件会产生不正确的结果。

于 2020-09-05T19:01:14.000 回答