我对 hbase 有点陌生,并且能够设置 hbase 并查询存储在多台 hadoop 机器上的数据,但我想知道是否也可以在 hbase 中分发数据分析。
这是我的情况,我有几十亿条记录需要快速分析,我想让 X 服务器查询数据库并获取查询的独特部分,以便他们可以处理它,而不是让单个服务器通过整个数据集。这可能吗?我该怎么做?
我非常不确定如何解决这个问题,因为我意识到所有查询都需要协调(每个服务器不能单独查询 hbase,否则 hbase 将不知道如何在服务器之间拆分请求)。我很困惑,但我想也许在 hadoop 中有一种本地方法可以做到这一点?
如果有帮助,我的应用程序正在运行 java,并且我正在使用 cloudera 发行版在 EC2 上运行集群。