我一直在做一项将 Hive 数据转换和加载到 HBase 中的 HFile 的小任务;框架 MapR。使用 bulkload 我在 HFiles 中转换后加载数据。转换没有任何问题,转换进行得很好。我面临的唯一问题是当 hive 数据大小增加时 MR 作业失败。由于虚拟内存被填满,作业失败。如果 hive 数据大小限制超过 10Gigs,则作业中断。
所有数据都被移动到单个区域服务器中,而不是分布在多个区域服务器上;这是我正在处理的 10 节点集群。似乎有hbase 热点。
我尝试将区域拆分为多个区域(NUMREGIONS => 256)并在区域之间平均分配负载(SPLITALGO => 'UniformSplit')。但这并不能解决问题。有人知道如何解决这个热点问题吗?
问候, 阿迪尔