hadoop - 如何处理上传到 HDFS 的 cvs 文件的特定部分？

Question

如何处理上传到 HDFS 的 cvs 文件的特定部分？我是 Hadoop 的新手，我有一个问题是如果我将关系数据库导出到 cvs 文件然后将其上传到 HDFS 。那么如何使用 MapReduce 处理文件中的特定部分（表）。提前致谢。

score 0 · Accepted Answer

我假设 RDBMS 表被导出到每个表的单独 csv 文件并存储在 HDFS 中。我认为，当您提到“特定部分（表）”时，您指的是表中的列数据。如果是这样，请将单个 csv 文件放入单独的文件路径中，例如 /user/userName/dbName/tables/table1.csv

现在，您可以为输入路径和字段出现配置作业。您可以考虑使用默认输入格式，以便您的映射器一次获得一行作为输入。根据配置/属性，您可以读取特定字段并处理数据。

score 0 · Accepted Answer

Cascading允许您快速开始使用 MapReduce。它具有允许您设置Taps访问源（您的 CSV 文件）并在管道中处理它的框架，例如（例如）将A列添加到B列并将总和放入C列，方法是将它们选择为Fields

score 0 · Accepted Answer

0

使用 BigTable 意味着将您的数据库转换为一张大表

于 2013-04-18T15:35:54.700 回答

3 回答 3