apache-spark - Apache Spark 和 Hudi：大量的输出文件

Question

我正在尝试从许多不同的 .csv 文件（都具有相同的“结构”）中读取数据，使用 Spark 执行一些操作，最后以 Hudi 格式保存它们。
要将数据存储在同一个 Hudi 表中，我认为最好的方法是在执行写入时使用 append 方法。
问题是这样做会创建大量的小文件，其总和尺寸远远超过输入数据集的大小（在某些情况下是 10 倍）。

这是我对 Hudi 的配置：

hudi_options = {
  'hoodie.table.name': tableName,
  'hoodie.datasource.write.recordkey.field': 'uuid',
  'hoodie.datasource.write.partitionpath.field': 'main_partition',
  'hoodie.datasource.write.table.name': tableName,
  'hoodie.datasource.write.operation': 'upsert',
  'hoodie.datasource.write.precombine.field': 'ts',
  'hoodie.upsert.shuffle.parallelism': 10, 
  'hoodie.insert.shuffle.parallelism': 10,
  'hoodie.delete.shuffle.parallelism': 10
}

虽然写操作是这样执行的：

result_df.write.format("hudi").options(**hudi_options).mode("append").save(basePath)

其中 result_df 是一个 Spark Dataframe，其架构始终相同，但数据不同，并且 basePath 是常量。
我检查了输出文件的内容，它们具有正确的架构/数据。那么，有没有办法将数据附加到同一个 Hudi 表文件中？

我对 apache Spark 和 Hudi 还很陌生，所以任何帮助/建议都将不胜感激；-)

score 0 · Accepted Answer

0

请提出 github issue(httsp://github.com/apache/hudi/issues) 以获得社区的及时响应

于 2021-04-20T04:03:09.093 回答

score 0 · Accepted Answer

Apache Hudi 的工作原理是 MVCC（多版本并发控制），因此每次写入都会在以下情况下创建现有文件的新版本： 1. 如果文件大小小于默认的最大文件大小：100 MB 2.如果您要更新现有文件中的现有记录。将这两个选项添加到您的 hudi_options，它在任何给定时间仅保留最新的两个版本：“hoodie.cleaner.commits.retained”：1，“hoodie.keep.min.commits”：2

来自@felix-k-jose 的评论

apache-spark - Apache Spark 和 Hudi：大量的输出文件

2 回答 2

Related

Reference