4

我需要将维基百科转储(mysql 表,解压文件大约需要 50gb)导入 Hadoop(hbase)。现在首先我将转储加载到 mysql 中,然后将数据从 mysql 传输到 hadoop。但是将数据加载到 mysql 需要大量时间 - 大约 4-7 天。是否可以将mysql转储直接加载到hadoop(通过一些转储文件解析器或类似的东西)?

4

2 回答 2

2

据我记得——MySQL Dumps 几乎完全是一组插入语句。你可以在你的映射器中解析它们并按原样处理......如果你只有几个表,java中的硬代码解析应该是微不足道的。

于 2012-11-13T15:48:24.367 回答
1

使用sqoop。使用 map reduce 作业将 mysql 数据导入 HDFS 的工具。

它很方便。

于 2012-11-15T15:08:10.780 回答