我想使用单个 mapreduce 作业将数据批量加载到多个表中。由于数据量很大,因此迭代数据集两次并使用多个作业加载会很耗时。有没有办法做到这一点?提前致谢。
问问题
246 次
1 回答
0
我正在使用 Hbase。但我还不需要批量加载。但是我遇到了这篇文章,它可能会对你有所帮助。
http://hbase.apache.org/book/arch.bulk.load.html
批量加载功能使用 MapReduce 作业以 HBase 的内部数据格式输出表数据,然后将生成的 StoreFiles 直接加载到正在运行的集群中。与简单地使用 HBase API 相比,使用批量加载将使用更少的 CPU 和网络资源。
于 2013-09-30T06:15:50.160 回答