hadoop - 映射器任务处理不同的数据库列集

翻译自：https://stackoverflow.com/questions/13570931 2012-11-26T18:29:44.603

47 次

1

我们有一个场景，我们希望单个 Hadoop 作业创建/管理多个映射器任务，其中每个映射器任务将查询关系数据库表中的列子集。我们研究了 DataDrivenDBInputFormat，但这似乎只有助于分区，其中每个映射器任务都可以查询关系数据库表中的行子集。

感谢您在这方面的任何建议。谢谢。

1 回答 1

0

我建议您编写一个单独的映射器来读取两组列的并集。您可以在同一个映射器中执行多个映射器任务，或者只是将数据转储到一个顺序文件中，多个后续映射器仅使用该文件中需要的内容。这取决于这两组映射器输出彼此之间的相关程度，以及它们在流程稍后的同一 hadoop 步骤中输入的速度（如果有的话）。

于 2012-11-26T22:34:22.470 回答