apache-spark - spark-xml 库多次解析 xml 文件

问问题 2018-03-14T11:16:50.110

74 次

我使用 databricks 中的 spark-xml 库来解析 xml 文件 (550 MB)。

Dataset books= spark.sqlContext().read()
            .format("com.databricks.spark.xml")
            .option("rootTag", "books")
            .option("rowTag", "book")
            .option("treatEmptyValuesAsNulls", "true")
            .load("path");

Spark 第一次使用许多任务/分区解析文件。

然后，当我调用此代码时：

books.select("code").count()

Spark 开始新的解析。

避免对数据集的每个函数调用都解析文件是一种解决方案吗？

apache-spark - spark-xml 库多次解析 xml 文件

0 回答 0

Related

Reference