HIVE_CANNOT_OPEN_SPLIT:打开 Hive 拆分 s3://exp-mahesh-sandbox/Demo/Year=2017/Month=1/Day=3/part-00015-d0e1263a-616e-435f-b4f4-9154afb3f07d.c000.snappy.parquet 时出错(偏移量 = 0,长度 = 12795):架构不匹配,行列统计的元存储架构有 17 个字段,但镶木地板架构有 9 个字段
我使用 AWS Glue 爬虫来获取 Parquet 文件的架构。最初我在分区 Day=1 和 Day=2 中有几个文件,运行爬虫并能够使用 Athena 查询它。在分区 Day=3 中添加更多文件后,其中具有“统计”(类型:结构)列的文件架构有一些缺失字段,Athena 抛出上述错误。有什么办法可以解决这个问题。我期望缺少的字段中有空值。
我已经尝试过在爬虫的数据目录选项中更新表定义,但它给出了相同的结果。