我有一个笔记本,我正在使用它来加载历史记录。每次加载 6 个月的数据,从2018-10-01
. 我的增量文件按 calendar_date 分区
初始加载后,我能够读取增量文件并查看数据就好了。
但是在第二次加载 date 之后2019-01-01 to 2019-06-30
,以前的分区没有使用 delta 格式正常加载。
像这样读取我的源增量文件会引发我的错误说
file dosen't exist
game_refined_start = (
spark.read.format("delta").load("s3://game_events/refined/game_session_start/calendar_date=2018-10-04/")
)
然而,像下面这样的阅读就可以很好地知道可能出了什么问题
spark.conf.set("spark.databricks.delta.formatCheck.enabled", "false")
game_refined_start = (
spark.read.format("parquet").load("s3://game_events/refined/game_session_start/calendar_date=2018-10-04/")
)