我是 HBase 的初学者。我目前不确定是什么影响了 HBase 的性能。首先,我以独立模式运行 Hbase。我使用单机运行一个 Mapreduce 程序来处理 200 万行文本,并将结果输出到存储在本地文件系统中的 HBase 表中。大约花了 1 小时 40 分钟。然后我改为伪分布式模式。然后将 Htable 文件存储在 HDFS 中。包括程序在内的所有其他内容保持不变。然后花了3个多小时!!我完全糊涂了。谁能告诉我为什么会这样?
另一个问题,因为我在不是很强大的 Linux 机器上创建了 5 个虚拟机作为虚拟集群(8G ram。3GHz 4 核 CPU)。一个月前我运行 Mapreduce 程序时,我发现在单个主服务器或 5 个以上从服务器上运行它时没有太大区别。所以我认为 CPU 可能是瓶颈,但我仍然不确定。由于我对操作系统不太熟悉,任何人都可以肯定地给出答案吗?我不确定这是 IO 瓶颈还是 CPU 瓶颈。我只是在 6 台机器集群上运行程序,以完全分布式模式将记录插入 HBase 表。它太慢了,所以我放弃了这份工作。