excel - 为什么数据框在使用 com.crealytics.spark.excel 读取时不会在 spark 中抛出带有“FAILFAST”选项的 RunTimeException？

Question

schema = <Schema of excel file>
df = spark.read.format("com.crealytics.spark.excel").\
 option("useHeader", "true").\  
 option("mode", "FAILFAST"). \
 schema(schema).\
 option("dataAddress", "Sheet1"). \
 load("C:\\Users\\ABC\\Downloads\\Input.xlsx")
 
 df.show()

从不正确/损坏的数据中读取（使用 show() 调用操作）时，上述 pyspark 读取 excel 数据帧片段没有失败/抛出运行时异常。但是 option("mode", "FAILFAST") 对于 CSV 工作正常，但是当我使用 com.crealytics.spark.excel jar 时，我遇到了问题，即它没有失败的代码并通过减去不正确/损坏的数据来给出结果。

有没有人遇到同样的问题？

提前致谢！

score 0 · Accepted Answer

0

根据以下文档，不支持任何提到的模式。

https://github.com/crealytics/spark-excel

于 2021-12-29T13:44:33.127 回答

excel - 为什么数据框在使用 com.crealytics.spark.excel 读取时不会在 spark 中抛出带有“FAILFAST”选项的 RunTimeException？

1 回答 1

Related

Reference