0

我需要每天导入一个包含昨天数据库快照的文件。要导入,我在 shell 中使用以下命令:

./bin/hbase org.apache.hadoop.hbase.mapreduce.ImportTsv \
    '-Dimporttsv.separator=|' \
    -Dimporttsv.columns=HBASE_ROW_KEY,info:date,info:author,info:text \
    tableName \
    inputFile.tsv

问题是每一行都包含所有值,而不仅仅是更新的值,导致每列有多个版本但具有相同的值。

还有其他方法可以导入此每日快照而忽略重复值吗?或者有什么建议可以解决这个问题?

谢谢!

4

1 回答 1

0

我想如果你真的想忽略现有的值,你需要编写自己的 map/reduce 而不是使用导入程序。

但是,多个版本有什么问题?首先,您可以设置 hbase 保留的版本数(当您定义列族时),其次,当您阅读时,您可以只阅读最新版本,最后,如果您担心存储,您可以设置 hbase 以使用压缩

于 2012-08-21T10:45:19.370 回答