1

嗨,我是 hadoop 的新手。

最近,我将大量的文本文件放入 HDFS。我想做的是读取这些文件并使用 Pig (LOAD, STORE) 将它们放入 HBase。但是,我发现存储到 HBase 需要很长时间。

有没有人遇到过类似的情况?如果是,如何解决这个问题?

谢谢

4

2 回答 2

1

当我使用 HBaseStorage 时,我遇到了同样的问题。实际上,HbaseStorage 执行顺序 PUT 操作以将数据加载到 HBase。它不是真正的大容量负载。看到这个未解决的 Jira。 https://issues.apache.org/jira/browse/PIG-2921

但是在使用ImportTSV选项 后,我得到了显着的性能差异。http://hbase.apache.org/book/ops_mgt.html#importtsv

批量加载涉及三个步骤 1. Pig :从源读取数据,在 HBASE 表结构中格式化,加载到 hdfs。2. ImportTsv : 准备 StoreFiles 通过 completebulkload 加载。3. completebulkload :将生成的 StoreFiles 移动到 HBase 表中。(就像切害虫一样)

希望这是有用的:)

于 2013-10-18T06:51:11.500 回答
0

花费的时间取决于您拥有的节点数量以及文件的大小。我认为最好检查输入数据集的节点数/dfs 大小。

于 2013-07-18T09:17:51.870 回答