apache-spark - 在 Spark 阅读器中，为了避免重复阅读 Hudi，格式选项是强制性的吗？

翻译自：https://stackoverflow.com/questions/69265232 2021-09-21T07:51:11.240

24 次

我最近开始使用 Hudi 在 S3 上存储一些数据集。编写数据集我正在使用 Glue 同步元数据以生成和维护一个表。

我正在开发基于 Hudi 数据集从表中读取的 Spark 作业（Java 中）。

我开始只是用古典读表session.read().table("table_name")，当然工作失败了，说在类路径中找不到 Hudi 阅读器。

然后我将 Hudi 依赖项添加到我的 POM 中，它无需任何代码更改即可工作。

现在我在更大的输入样本上运行这项工作，我开始注意到一些异常情况。经过一些调试，这是由于输入重复。在同一时期重新运行作业最初并没有解决问题，但经过一些重试后，重复项消失了。

我假设这些重复项可能是由 Hudi 的错误配置生成的，这可能没有以正确的方式压缩。

我的问题是：在 Hudi 示例中，格式是明确配置的（如下）

spark.read.
  format("hudi").
  load(...)

虽然我没有设置format选项。是否需要正确读取 Hudi 数据集？

0 回答 0