0

阅读 Cloudera 文档,使用 Impala 将 Hive 表与 HBase 较小的表连接起来,如下所述,然后在没有大数据设备(如 OBDA)和较大的可变 HBase 维度表的情况下:

如果您有对大型事实表执行聚合操作并将结果与​​小维度表连接的联接查询,请考虑将 Impala 用于事实表,将 HBase 用于维度表。(因为在这种情况下,Impala 对 HBase 表进行全扫描,而不是基于连接列进行单行 HBase 查找,仅在 HBase 表足够小以至于进行全表扫描不会导致查询的性能瓶颈。)

有没有办法让那个单键以另一种方式查找?

此外,我在 KUDU 和 HDFS 上注意到以下内容,大概是 HIVE。有人在这里有经验吗?很想知道。我会在适当的时候自己尝试,但是在非打包的快速入门上安装包裹并不是那么容易......

在单个应用程序(或查询)中混合和匹配存储管理器

• SELECT COUNT(*) FROM my_fact_table_on_hdfs JOIN
my_dim_table_in_kudu ON ...
4

1 回答 1

-1

谨慎起见,与 KUDU 链接维度将是一种方法,以避免在仅需要 lkp 时对 HBASE 中的大维度进行扫描。

我收回后一点,我确信如果它是等值连接,连接不会导致 HBASE 扫描。

也就是说,带 MPP 的 IMPALA 允许使用 MPP 方法,无需 MR 和 JOINing 维度与事实表。OBDA 的优势现在不那么明显了。海事组织

于 2017-06-07T17:12:35.700 回答