0

我最近开始使用 Hudi 在 S3 上存储一些数据集。编写数据集我正在使用 Glue 同步元数据以生成和维护一个表。

我正在开发基于 Hudi 数据集从表中读取的 Spark 作业(Java 中)。

我开始只是用古典读表session.read().table("table_name"),当然工作失败了,说在类路径中找不到 Hudi 阅读器。

然后我将 Hudi 依赖项添加到我的 POM 中,它无需任何代码更改即可工作。

现在我在更大的输入样本上运行这项工作,我开始注意到一些异常情况。经过一些调试,这是由于输入重复。在同一时期重新运行作业最初并没有解决问题,但经过一些重试后,重复项消失了。

我假设这些重复项可能是由 Hudi 的错误配置生成的,这可能没有以正确的方式压缩。

我的问题是:在 Hudi 示例中,格式是明确配置的(如下)

spark.read.
  format("hudi").
  load(...)

虽然我没有设置format选项。是否需要正确读取 Hudi 数据集?

4

0 回答 0