apache-spark - 由于 _SUCCESS 文件，Spark 从先前的写入结果中读取 avro 结果导致“不是 avro 数据文件”

问问题 2017-07-25T19:13:01.730

514 次

我正在使用出色的 databricks 连接器来读取/写入 avro 文件。我有以下代码

df.write.mode(SaveMode.Overwrite).avro(someDirectory)

问题是当我尝试使用 sqlContext.read.avro(someDirectory) 读取此目录时

它失败了

java.io.IOException: Not an Avro data file

由于该目录中存在 _SUCCESS 文件。

设置sc.hadoopConfiguration.set("mapreduce.fileoutputcommitter.marksuccessfuljobs", "false")解决了这个问题，但我宁愿避免这样做。

这听起来像是一个非常普遍的问题，所以我可能做错了什么？

0 回答 0