hbase - Pig 需要很长时间才能进入 Hbase

Question

嗨，我是 hadoop 的新手。

最近，我将大量的文本文件放入 HDFS。我想做的是读取这些文件并使用 Pig (LOAD, STORE) 将它们放入 HBase。但是，我发现存储到 HBase 需要很长时间。

有没有人遇到过类似的情况？如果是，如何解决这个问题？

谢谢

score 1 · Accepted Answer

当我使用 HBaseStorage 时，我遇到了同样的问题。实际上，HbaseStorage 执行顺序 PUT 操作以将数据加载到 HBase。它不是真正的大容量负载。看到这个未解决的 Jira。 https://issues.apache.org/jira/browse/PIG-2921

但是在使用ImportTSV选项后，我得到了显着的性能差异。http://hbase.apache.org/book/ops_mgt.html#importtsv

批量加载涉及三个步骤 1. Pig ：从源读取数据，在 HBASE 表结构中格式化，加载到 hdfs。2. ImportTsv : 准备 StoreFiles 通过 completebulkload 加载。3. completebulkload ：将生成的 StoreFiles 移动到 HBase 表中。（就像切害虫一样）

希望这是有用的:)

score 0 · Accepted Answer

花费的时间取决于您拥有的节点数量以及文件的大小。我认为最好检查输入数据集的节点数/dfs 大小。

hbase - Pig 需要很长时间才能进入 Hbase

2 回答 2

Related

Reference