当从目录下的 HDFS 读取大量 orc 文件时,spark 直到一段时间后才会启动任何任务,并且在此期间我看不到任何任务在运行。我正在使用下面的命令来读取 orc 和 spark.sql 配置。
发出 spark.read.orc 时,火花在做什么?
spark.read.schema(schame1).orc("hdfs://test1").filter("date >= 20181001")
"spark.sql.orc.enabled": "true",
"spark.sql.orc.filterPushdown": "true
另外,我没有直接读取 orc 文件,而是尝试在同一数据集上运行 Hive 查询。但我无法推送过滤谓词。我应该在哪里设置以下配置
"hive.optimize.ppd":"true",
"hive.optimize.ppd.storage":"true"
建议从 HDFS 读取 orc 文件和调整参数的最佳方法是什么?