感谢您对我的问题感兴趣。在开始之前,我想让您知道我对 Hadoop 和 HBase 非常陌生。到目前为止,我发现 Hadoop 非常有趣,并希望在未来做出更多贡献。
我主要对提高 HBase 的性能感兴趣。为此,我修改Writer
了 HBase/io/hfile/Hfile.java
中的方法,使其进行高速缓冲数据组装,然后直接写入 Hadoop,以便以后可以由 HBase 加载。
现在,我试图想出一种压缩键值对的方法,以便节省带宽。我做了很多研究来弄清楚如何做;然后意识到HBase有内置的压缩库。
我目前正在查看 SequenceFile (1);setCompressMapOutput (2)(已弃用);和类压缩(3)。我还找到了关于 Apache 的 MapReduce的教程。
有人可以解释什么是“SequenceFile”,以及如何实现这些压缩库和算法?这些不同的类和文档让我很困惑。
我真诚地感谢您的帮助。
--
超链接:
(1):hadoop.apache.org/common/docs/current/api/org/apache/hadoop/io/SequenceFile.html
(2):hadoop.apache.org/common/docs/current/api/org/apache/hadoop/mapred/JobConf.html#setCompressMapOutput%28boolean%29
(3): www.apache.org/dist/hbase/docs/apidocs/org/apache/hadoop/hbase/io/hfile/Compression.html