阅读 Cloudera 文档,使用 Impala 将 Hive 表与 HBase 较小的表连接起来,如下所述,然后在没有大数据设备(如 OBDA)和较大的可变 HBase 维度表的情况下:
如果您有对大型事实表执行聚合操作并将结果与小维度表连接的联接查询,请考虑将 Impala 用于事实表,将 HBase 用于维度表。(因为在这种情况下,Impala 对 HBase 表进行全扫描,而不是基于连接列进行单行 HBase 查找,仅在 HBase 表足够小以至于进行全表扫描不会导致查询的性能瓶颈。)
有没有办法让那个单键以另一种方式查找?
此外,我在 KUDU 和 HDFS 上注意到以下内容,大概是 HIVE。有人在这里有经验吗?很想知道。我会在适当的时候自己尝试,但是在非打包的快速入门上安装包裹并不是那么容易......
在单个应用程序(或查询)中混合和匹配存储管理器
• SELECT COUNT(*) FROM my_fact_table_on_hdfs JOIN
my_dim_table_in_kudu ON ...