我正在使用出色的 databricks 连接器来读取/写入 avro 文件。我有以下代码
df.write.mode(SaveMode.Overwrite).avro(someDirectory)
问题是当我尝试使用 sqlContext.read.avro(someDirectory) 读取此目录时
它失败了
java.io.IOException: Not an Avro data file
由于该目录中存在 _SUCCESS 文件。
设置sc.hadoopConfiguration.set("mapreduce.fileoutputcommitter.marksuccessfuljobs", "false")
解决了这个问题,但我宁愿避免这样做。
这听起来像是一个非常普遍的问题,所以我可能做错了什么?