0

我对 hbase 有点陌生,并且能够设置 hbase 并查询存储在多台 hadoop 机器上的数据,但我想知道是否也可以在 hbase 中分发数据分析。

这是我的情况,我有几十亿条记录需要快速分析,我想让 X 服务器查询数据库并获取查询的独特部分,以便他们可以处理它,而不是让单个服务器通过整个数据集。这可能吗?我该怎么做?

我非常不确定如何解决这个问题,因为我意识到所有查询都需要协调(每个服务器不能单独查询 hbase,否则 hbase 将不知道如何在服务器之间拆分请求)。我很困惑,但我想也许在 hadoop 中有一种本地方法可以做到这一点?

如果有帮助,我的应用程序正在运行 java,并且我正在使用 cloudera 发行版在 EC2 上运行集群。

4

1 回答 1

1

HBase 基于 Hadoop 构建是有原因的:) 您可以使用 Hadoop 的 map-reduce 框架来分发分析,并让 hadoop/hbase 负责分配负载。您可以从文档开始,看看可以做什么。

另一个选择是编写协处理器。协处理器在区域服务器上运行,因此它们靠近数据工作。你可以在这里找到一个不错的介绍

于 2012-09-30T07:29:27.820 回答