join - Hive Hbase JOIN 性能 & KUDU

Question

阅读 Cloudera 文档，使用 Impala 将 Hive 表与 HBase 较小的表连接起来，如下所述，然后在没有大数据设备（如 OBDA）和较大的可变 HBase 维度表的情况下：

如果您有对大型事实表执行聚合操作并将结果与小维度表连接的联接查询，请考虑将 Impala 用于事实表，将 HBase 用于维度表。（因为在这种情况下，Impala 对 HBase 表进行全扫描，而不是基于连接列进行单行 HBase 查找，仅在 HBase 表足够小以至于进行全表扫描不会导致查询的性能瓶颈。）

有没有办法让那个单键以另一种方式查找？

此外，我在 KUDU 和 HDFS 上注意到以下内容，大概是 HIVE。有人在这里有经验吗？很想知道。我会在适当的时候自己尝试，但是在非打包的快速入门上安装包裹并不是那么容易......

在单个应用程序（或查询）中混合和匹配存储管理器

• SELECT COUNT(*) FROM my_fact_table_on_hdfs JOIN
my_dim_table_in_kudu ON ...

score -1 · Accepted Answer

谨慎起见，与 KUDU 链接维度将是一种方法，以避免在仅需要 lkp 时对 HBASE 中的大维度进行扫描。

我收回后一点，我确信如果它是等值连接，连接不会导致 HBASE 扫描。

也就是说，带 MPP 的 IMPALA 允许使用 MPP 方法，无需 MR 和 JOINing 维度与事实表。OBDA 的优势现在不那么明显了。海事组织

join - Hive Hbase JOIN 性能 & KUDU

1 回答 1

Related

Reference