我使用 databricks 中的 spark-xml 库来解析 xml 文件 (550 MB)。
Dataset books= spark.sqlContext().read()
.format("com.databricks.spark.xml")
.option("rootTag", "books")
.option("rowTag", "book")
.option("treatEmptyValuesAsNulls", "true")
.load("path");
Spark 第一次使用许多任务/分区解析文件。
然后,当我调用此代码时:
books.select("code").count()
Spark 开始新的解析。
避免对数据集的每个函数调用都解析文件是一种解决方案吗?