apache-spark - 使用即时时间读取 Spark Datasource Hudi 表

翻译自：https://stackoverflow.com/questions/66552781 2021-03-09T18:32:55.957

221 次

我正在使用Spark.read.format("hudi")读取 Hudi 表

想了解这个选项是如何工作的hoodie.datasource.read.begin.instanttime 它是否类似于 parquets 文件中提供的 hudi 的 hoodie_commit_ts 列？

我无法使用 hoodie_commit_ts 列和以下方法在同一 hudi 路径顶部的外部表之间获得相同的计数。

示例代码在这里

开始时间 = '20201201194517'

incremental_read_options = {'hoodie.datasource.query.type'：'增量'，'hoodie.datasource.read.begin.instanttime'：beginTime}

Incremental_DF = spark.read.format("org.apache.hudi")。
选项（**incremental_read_options）。
加载（）

0 回答 0