0

我有一些未启用 JDBC 的数据库,但我能够从这些数据库中检索数据。我想将此数据传递给 mapreduce 程序中的映射器。我试图从“mapreduce.lib.DB”包中的源文件中找出一些东西,但我觉得缺少一些东西。谁能告诉我如何将数据库的输出传递给映射器?

4

2 回答 2

0

一种简单的方法是将数据库中的数据批量导出到文件中,将文件放入 HDFS,然后使用FileInputFormat读取 HDFS 中的文件并进行处理。

于 2013-04-10T12:50:25.303 回答
0

我认为你需要Sqoop

首先,您必须使用sqoop import命令将数据从 rdbms 传输到 hdfs。

稍后您将编写一个 mapreduce 程序,该程序将输入路径作为方法的参数setInputpath

于 2013-04-10T10:50:18.293 回答