5

我有数据文件(在这个例子中是 json,但也可以是 avro)写在一个目录结构中,比如:

dataroot
+-- year=2015
    +-- month=06
        +-- day=01
            +-- data1.json
            +-- data2.json
            +-- data3.json
        +-- day=02
            +-- data1.json
            +-- data2.json
            +-- data3.json
    +-- month=07
        +-- day=20
            +-- data1.json
            +-- data2.json
            +-- data3.json
        +-- day=21
            +-- data1.json
            +-- data2.json
            +-- data3.json
        +-- day=22
            +-- data1.json
            +-- data2.json

使用 spark-sql 我创建了一个临时表:

CREATE TEMPORARY TABLE dataTable
USING org.apache.spark.sql.json
OPTIONS (
  path "dataroot/*"
)

查询表效果很好,但到目前为止我无法使用目录进行修剪。

有没有办法将目录结构注册为分区(不使用 Hive)以避免在查询时扫描整个树?假设我想比较每个月的第一天的数据,并且只读取这些天的目录。

使用 Apache Drill,我可以在查询时使用目录作为谓词dir0等。是否可以使用 Spark SQL 做类似的事情?

4

2 回答 2

3

据我所知,分区自动发现仅适用于 SparkSQL 中的 parquet 文件。请参阅http://spark.apache.org/docs/latest/sql-programming-guide.html#partition-discovery

于 2015-07-25T13:16:51.553 回答
1

用于EXPLAIN查看物理计划,以便扫描哪个文件夹。

此外,您可以在创建表时描述分区,以便 Spark 可以使用它。

我不确定 Spark 1.6 是否正确使用分区修剪,设置spark.sql.hive.convertMetastoreParquet为 false,我可以看到它,但设置为 true(默认),我可以看到 Spark 将扫描所有分区(但这根本不影响性能)。

于 2017-10-20T17:32:36.060 回答