我正在尝试使用 sqoop 将数据从 MySQL 导入 HBase。MySQL 表中有大约 900 万条记录,大小接近 1.2GB。hadoop集群的复制因子是3。
以下是我面临的问题:
导入hbase后数据大小超过20GB!!!理想情况下,它应该接近 5GB(1.2G*3 + 一些开销)
HBase 表的 VERSIONS 定义为 1。如果我再次从 MySQL 导入同一个表,/hbase/ 中的文件大小会增加(几乎翻倍)。尽管 HBase 表中的行数保持不变。这看起来很奇怪,因为我在 HBase 中插入了相同的行,因此文件大小应该保持不变,类似于行计数值。
据我了解,如果我导入与为每个条目维护的最大版本相同的行集,则第二种情况下的文件大小不应增加。
任何帮助将不胜感激。