java - hbase数据的分布式分析

Question

我对 hbase 有点陌生，并且能够设置 hbase 并查询存储在多台 hadoop 机器上的数据，但我想知道是否也可以在 hbase 中分发数据分析。

这是我的情况，我有几十亿条记录需要快速分析，我想让 X 服务器查询数据库并获取查询的独特部分，以便他们可以处理它，而不是让单个服务器通过整个数据集。这可能吗？我该怎么做？

我非常不确定如何解决这个问题，因为我意识到所有查询都需要协调（每个服务器不能单独查询 hbase，否则 hbase 将不知道如何在服务器之间拆分请求）。我很困惑，但我想也许在 hadoop 中有一种本地方法可以做到这一点？

如果有帮助，我的应用程序正在运行 java，并且我正在使用 cloudera 发行版在 EC2 上运行集群。

score 1 · Accepted Answer

HBase 基于 Hadoop 构建是有原因的：) 您可以使用 Hadoop 的 map-reduce 框架来分发分析，并让 hadoop/hbase 负责分配负载。您可以从文档开始，看看可以做什么。

另一个选择是编写协处理器。协处理器在区域服务器上运行，因此它们靠近数据工作。你可以在这里找到一个不错的介绍

1 回答 1