apache-spark - Apache Spark orc 读取大量小文件时的读取性能

问问题 2018-10-31T16:59:07.270

940 次

当从目录下的 HDFS 读取大量 orc 文件时，spark 直到一段时间后才会启动任何任务，并且在此期间我看不到任何任务在运行。我正在使用下面的命令来读取 orc 和 spark.sql 配置。

发出 spark.read.orc 时，火花在做什么？

spark.read.schema(schame1).orc("hdfs://test1").filter("date >= 20181001")
"spark.sql.orc.enabled": "true",
"spark.sql.orc.filterPushdown": "true

另外，我没有直接读取 orc 文件，而是尝试在同一数据集上运行 Hive 查询。但我无法推送过滤谓词。我应该在哪里设置以下配置 "hive.optimize.ppd":"true", "hive.optimize.ppd.storage":"true"

建议从 HDFS 读取 orc 文件和调整参数的最佳方法是什么？

0 回答 0