0

如何处理上传到 HDFS 的 cvs 文件的特定部分?我是 Hadoop 的新手,我有一个问题是如果我将关系数据库导出到 cvs 文件然后将其上传到 HDFS 。那么如何使用 MapReduce 处理文件中的特定部分(表)。提前致谢 。

4

3 回答 3

0

我假设 RDBMS 表被导出到每个表的单独 csv 文件并存储在 HDFS 中。我认为,当您提到“特定部分(表)”时,您指的是表中的列数据。如果是这样,请将单个 csv 文件放入单独的文件路径中,例如 /user/userName/dbName/tables/table1.csv

现在,您可以为输入路径和字段出现配置作业。您可以考虑使用默认输入格式,以便您的映射器一次获得一行作为输入。根据配置/属性,您可以读取特定字段并处理数据。

于 2013-04-17T17:02:55.563 回答
0

Cascading允许您快速开始使用 MapReduce。它具有允许您设置Taps访问源(您的 CSV 文件)并在管道中处理它的框架,例如(例如)将A列添加到B列并将总和放入C列,方法是将它们选择为Fields

于 2013-04-18T01:20:22.850 回答
0

使用 BigTable 意味着将您的数据库转换为一张大表

于 2013-04-18T15:35:54.700 回答