0

我在一个较小的纱线集群上运行 Apache Spark 1.6.1。我正在尝试使用如下查询从配置单元表中提取数据:

df = hiveCtx.sql("""
SELECT *
  FROM hive_database.gigantic_table
 WHERE loaddate = '20170502'
""")

但是,无论我为 loaddate 赋予什么值,生成的数据框都是整个表。我能想到的唯一奇怪的事情是 hive 表是由 loaddate 列分区的。

单独 Hive 似乎可以正确运行此查询。我尝试过转换为整数、使用.filter()和各种级别的引号,但在 Spark 上没有运气。

4

1 回答 1

0

事实证明,对分区列进行过滤是区分大小写的。

https://issues.apache.org/jira/browse/SPARK-19292

于 2017-07-13T21:43:28.337 回答