我们在 HBase 中创建了表,这些表使用 HBase 存储处理程序映射到 Hive。如果表有大量记录,比如 100Millions,并且如果我们需要基于某个列连接两个表,并且如果这些列不是 row key id 列,那么性能将如何,有什么方法可以提高性能在映射到 HBase 的 Hive 表的表连接中。
问候, GHK。
对于 Hive JOIN 性能,您使用哪种底层存储并不重要。所以 HBase rowkey 不能帮助你使用 Hive。
您可以使用的一个技巧是 mapjoin,如果您将小桌子与大桌子连接起来,它会非常有效。
您可以在此链接上阅读有关 Hive JOIN 性能的更多信息https://www.facebook.com/notes/facebook-engineering/join-optimization-in-apache-hive/470667928919