0

我有一个程序 hbase 和 mapreduce。

我将数据存储在 HDFS 中,这个文件的大小是:100G。现在我把这些数据放到 Hbase 中。

我使用 mapreduce 扫描这个文件丢失了 5 分钟。但是扫描hbase表丢失了30分钟。

使用 hbase 和 mapreduce 时如何提高速度?

谢谢。

4

1 回答 1

0

我假设您使用的是单节点 HDFS。如果您将 100Gb 文件放在 HDFS 的多节点集群中,那么 Map Reduce 和 Hive 都会快得多。

您可以尝试在 Map Reduce 上增加映射器和化简器的数量以获得一些性能提升,看看这篇文章

Hive 本质上是一个建立在 HDFS 之上的数据仓库工具,并且每个查询都在下面是一个 Map Reduce 任务本身。所以上面的帖子也会回答这个问题。

于 2012-11-09T08:17:04.263 回答