我需要每天导入一个包含昨天数据库快照的文件。要导入,我在 shell 中使用以下命令:
./bin/hbase org.apache.hadoop.hbase.mapreduce.ImportTsv \
'-Dimporttsv.separator=|' \
-Dimporttsv.columns=HBASE_ROW_KEY,info:date,info:author,info:text \
tableName \
inputFile.tsv
问题是每一行都包含所有值,而不仅仅是更新的值,导致每列有多个版本但具有相同的值。
还有其他方法可以导入此每日快照而忽略重复值吗?或者有什么建议可以解决这个问题?
谢谢!