1

假设我在 Amazon elastic mapreduce 上启动了一个集群,并且有一个主节点实例、2 个核心节点实例和 15 个任务节点实例。

我想我使用 mapreduce 作业和增量上传将大约 1 TB 的数据上传到 hbase。

现在 -

  1. 如何找到表大小和区域拆分(字节)。通常在 CDH 上我会做一个 hadoop fs -du /hbase。但是我的主节点上没有 /hbase 目录。

  2. 我也很想知道区域服务器分配将如何工作。所以即使我有 100 个区域 - 如果我有 1 个主节点 - 这意味着整个 IO 将受到限制,对吗?

感谢和问候

4

1 回答 1

0

您是否使用 Elastic Map Reduce 在 Amazon AWS 中启动了 HBase 集群?还是只是一个 Hadoop 集群?

  1. “hadoop fs -du /hbase”在 HBase-on-EMR 上对我有用。你能仔细检查一下吗?
  2. 如果您没有预先分割区域等,HBase 会为您处理这些。至于 I/O 限制,请查看 HBase 文档/视频 - 当客户端需要从 HBase 读取/写入时,它将缓存来自 -ROOT- 和 .META 的结果。并直接联系区域服务器而不是通过主服务器。
于 2013-10-15T20:19:03.430 回答