hbase - 映射到 HBase 的 Hive 表上的联接

Question

我们在 HBase 中创建了表，这些表使用 HBase 存储处理程序映射到 Hive。如果表有大量记录，比如 100Millions，并且如果我们需要基于某个列连接两个表，并且如果这些列不是 row key id 列，那么性能将如何，有什么方法可以提高性能在映射到 HBase 的 Hive 表的表连接中。

问候， GHK。

score 2 · Accepted Answer

对于 Hive JOIN 性能，您使用哪种底层存储并不重要。所以 HBase rowkey 不能帮助你使用 Hive。

您可以使用的一个技巧是 mapjoin，如果您将小桌子与大桌子连接起来，它会非常有效。

您可以在此链接上阅读有关 Hive JOIN 性能的更多信息https://www.facebook.com/notes/facebook-engineering/join-optimization-in-apache-hive/470667928919

hbase - 映射到 HBase 的 Hive 表上的联接

1 回答 1

Related

Reference