我正在尝试了解如何将 Redshift Spectrum 与 Hudi 数据正确连接。
看起来我可以直接为 Apache Hudi 中管理的数据创建 Redshift 外部表,就像以下文档中描述的那样https://docs.aws.amazon.com/redshift/latest/dg/c-spectrum-external-tables.html另一种方法是将 Hudi 与 AWS Glue 数据目录集成,就像这里提到的那样https://docs.aws.amazon.com/emr/latest/ReleaseGuide/emr-hudi-how-it-works.html然后访问 Hudi通过 AWS Glue 数据目录使用 Redshift Spectrum 的表。
我对适用于 Apache Spark 的 AWS EMR 的需求相同。看起来我可以直接从 EMR 或通过 AWS Glue 数据目录使用 Hudi。
现在,我不明白如何选择。您能否告知通过 AWS Glue 数据目录使用 Hudi 有什么好处,还是我需要直接从 Redshift Spectrum 和 AWS EMR 使用它?