嗨,我是 hadoop 的新手。
最近,我将大量的文本文件放入 HDFS。我想做的是读取这些文件并使用 Pig (LOAD, STORE) 将它们放入 HBase。但是,我发现存储到 HBase 需要很长时间。
有没有人遇到过类似的情况?如果是,如何解决这个问题?
谢谢
嗨,我是 hadoop 的新手。
最近,我将大量的文本文件放入 HDFS。我想做的是读取这些文件并使用 Pig (LOAD, STORE) 将它们放入 HBase。但是,我发现存储到 HBase 需要很长时间。
有没有人遇到过类似的情况?如果是,如何解决这个问题?
谢谢
当我使用 HBaseStorage 时,我遇到了同样的问题。实际上,HbaseStorage 执行顺序 PUT 操作以将数据加载到 HBase。它不是真正的大容量负载。看到这个未解决的 Jira。 https://issues.apache.org/jira/browse/PIG-2921
但是在使用ImportTSV选项 后,我得到了显着的性能差异。http://hbase.apache.org/book/ops_mgt.html#importtsv
批量加载涉及三个步骤 1. Pig :从源读取数据,在 HBASE 表结构中格式化,加载到 hdfs。2. ImportTsv : 准备 StoreFiles 通过 completebulkload 加载。3. completebulkload :将生成的 StoreFiles 移动到 HBase 表中。(就像切害虫一样)
希望这是有用的:)
花费的时间取决于您拥有的节点数量以及文件的大小。我认为最好检查输入数据集的节点数/dfs 大小。