Find centralized, trusted content and collaborate around the technologies you use most.
Teams
Q&A for work
Connect and share knowledge within a single location that is structured and easy to search.
我们将oracle表sqooping到HBase并在Hive中创建映射表,似乎在我们sqooping时,所有数据都流向了一个区域,因此当我在hive上查询时,只有一个map taks正在执行以获取记录。
有什么方法可以解决这个问题以提高性能。
你试过强迫桌子分裂吗?
如果您的数据很小(小于 1 GB,或者您的默认最小区域大小是多少),那么您在导入时只会获得一个区域。您可以强制 HBase 将表拆分为多个区域,但如果您的数据很小,您可能不会注意到太大的改进。
M/R 工作历来有很多开销。Hive 的未来版本应该会有所帮助,但改进可能尚未使其成为稳定的 CDH 发行版。