hadoop - HBase 内连接和协处理器

Question

我打算做一个在 HBase 中实现所有聚合操作的项目。但我不知道它的难度。我只有 6 个月的时间来完成那个项目。我应该继续前进吗？我打算用java来做。我知道已经有一些聚合函数。但是现在没有 INNER JOIN 之类的查询。我正计划实施这种类型的查询。我不知道这是一个错误或虚张声势。

score 1 · Accepted Answer

我认为在技术上我们应该区分两种类型的连接：
a）一张小表+一张大表。小表是指可以缓存在每个节点的内存中而不会严重影响集群操作的表。在这种情况下，通过将小表放入哈希图中，迭代大表数据的节点本地部分并以此方式产生连接结果，应该可以使用协处理器进行连接。在 Hive 的术语中，它被称为“地图”加入http://www.facebook.com/note.php?note_id=470667928919。
b) 两张大桌子。我认为在短时间内获得生产质量是不可行的。我可能会说，这种功能是 MPP 数据库的领域，也是其 IP 的重要组成部分。

score 0 · Accepted Answer

0

在 HBase 中，这绝对比在 RDBMS 或其他 Hadoop 技术（如 PIG 或 Hive）中更难。

于 2012-08-11T10:53:00.057 回答

hadoop - HBase 内连接和协处理器

2 回答 2

Related

Reference