0

我使用 databricks 中的 spark-xml 库来解析 xml 文件 (550 MB)。

Dataset books= spark.sqlContext().read()
            .format("com.databricks.spark.xml")
            .option("rootTag", "books")
            .option("rowTag", "book")
            .option("treatEmptyValuesAsNulls", "true")
            .load("path");

Spark 第一次使用许多任务/分区解析文件。

然后,当我调用此代码时:

books.select("code").count()

Spark 开始新的解析。

避免对数据集的每个函数调用都解析文件是一种解决方案吗?

4

0 回答 0