2

我的数据不需要实时加载,所以我不必使用 HBASE,但我想知道在 MR Jobs 中使用 HBASE 是否有任何性能优势,由于索引数据,连接不应该更快吗?

有人有任何基准吗?

4

3 回答 3

2

一般来说,hive/hdfs 会比 HBase 快很多。HBase 位于 HDFS 之上,因此它增加了另一层。如果您正在查找单个记录,HBase 会更快,但您不会为此使用 MR 作业。

于 2012-07-29T00:37:04.357 回答
2

HBase 与 Hive 的性能:

基于 HBase、Hive 和 Hive on Hbase 的结果:看起来两种方法之间的性能相当。

Hive 上的 HBase 性能

在此处输入图像描述

于 2013-08-24T14:58:21.450 回答
0

尊敬的 :) 我想告诉您,如果您的数据不是真实的,并且您也在考虑使用 mapreduce 作业,那么只能通过 hdfs 进行配置,因为 Weblog 可以由 Hadoop MapReduce 程序处理并存储在 HDFS 中。同时,Hive支持HDFS位置数据的快速读取、基础SQL、join、批量数据加载到Hive数据库。
由于 hive 还为我们提供
批量处理/实时(如果可能)
以及类似 SQL 的接口
内置优化的 map-reduce
大数据分区,与 hdfs 更兼容,有助于减少 HBase 层,否则如果您在此处添加 HBase那么这对您来说将是多余的功能:)

于 2012-07-30T04:01:18.470 回答