amazon-web-services - 直接或通过 AWS Glue 数据目录将 Redshift Spectrum/AWS EMR 与 Hudi 连接

Question

我正在尝试了解如何将 Redshift Spectrum 与 Hudi 数据正确连接。

看起来我可以直接为 Apache Hudi 中管理的数据创建 Redshift 外部表，就像以下文档中描述的那样https://docs.aws.amazon.com/redshift/latest/dg/c-spectrum-external-tables.html另一种方法是将 Hudi 与 AWS Glue 数据目录集成，就像这里提到的那样https://docs.aws.amazon.com/emr/latest/ReleaseGuide/emr-hudi-how-it-works.html然后访问 Hudi通过 AWS Glue 数据目录使用 Redshift Spectrum 的表。

我对适用于 Apache Spark 的 AWS EMR 的需求相同。看起来我可以直接从 EMR 或通过 AWS Glue 数据目录使用 Hudi。

现在，我不明白如何选择。您能否告知通过 AWS Glue 数据目录使用 Hudi 有什么好处，还是我需要直接从 Redshift Spectrum 和 AWS EMR 使用它？

score 2 · Accepted Answer

鉴于在 EMR 上使用 Spark，您需要一个目录，如果您需要 Hive 元存储，那么使用 AWS Glue 目录是一种选择。

如果您选择使用 Glue 作为元存储，则将其用作所有数据的源。除非错误很明显，否则请使用 Hudi api for Spark。

1 回答 1