apache-spark - Glue Crawler 可以爬取 deltalake 文件以在 aws 胶水目录中创建表吗？

Question

我们有一个现有的基础架构，我们正在通过 aws 爬虫爬取 S3 目录。这些 S3 目录是作为 AWS datalake 的一部分创建的，并通过 spark 作业转储。现在为了实现 delta 功能，我们在 deltalake 上进行了 POC。因此，当我通过 spark-delta Jobs 在 S3 中编写这些 deltalake 文件时，我的爬虫无法从这些爬虫创建表。

我们可以使用 AWS 爬虫来爬取 delta Lake 文件吗？

score 2 · Accepted Answer

根据此文档，您不应该使用 Glue crawler。您应该使用清单文件将delta 文件与 Athena 集成。

警告

不要在位置上使用 AWS Glue Crawler 来定义 AWS Glue 中的表。Delta Lake 维护着多个版本的表对应的文件，查询所有被 Glue 爬取的文件会产生不正确的结果。

apache-spark - Glue Crawler 可以爬取 deltalake 文件以在 aws 胶水目录中创建表吗？

1 回答 1

Related

Reference