1

我正在尝试了解如何将 Redshift Spectrum 与 Hudi 数据正确连接。

看起来我可以直接为 Apache Hudi 中管理的数据创建 Redshift 外部表,就像以下文档中描述的那样https://docs.aws.amazon.com/redshift/latest/dg/c-spectrum-external-tables.html另一种方法是将 Hudi 与 AWS Glue 数据目录集成,就像这里提到的那样https://docs.aws.amazon.com/emr/latest/ReleaseGuide/emr-hudi-how-it-works.html然后访问 Hudi通过 AWS Glue 数据目录使用 Redshift Spectrum 的表。

我对适用于 Apache Spark 的 AWS EMR 的需求相同。看起来我可以直接从 EMR 或通过 AWS Glue 数据目录使用 Hudi。

现在,我不明白如何选择。您能否告知通过 AWS Glue 数据目录使用 Hudi 有什么好处,还是我需要直接从 Redshift Spectrum 和 AWS EMR 使用它?

4

1 回答 1

2

鉴于在 EMR 上使用 Spark,您需要一个目录,如果您需要 Hive 元存储,那么使用 AWS Glue 目录是一种选择。

如果您选择使用 Glue 作为元存储,则将其用作所有数据的源。除非错误很明显,否则请使用 Hudi api for Spark。

于 2021-09-12T18:13:20.073 回答