我是一个总的hadoop n00b。作为我的第一个 hadoop 项目,我正在尝试解决以下问题。我有一百万多个子文件夹位于亚马逊 S3 存储桶中。这些文件夹中的每一个都有两个文件。文件 1 的数据如下:
date,purchaseItem,purchaseAmount
01/01/2012,Car,12000
01/02/2012,Coffee,4
....................
File2 有客户的信息,格式如下:
ClientId:Id1
ClientName:"SomeName"
ClientAge:"SomeAge"
这种相同的模式在存储桶中的所有文件夹中重复出现。
在将所有这些数据写入 HDFS 之前,我想加入 File1 和 File2,如下所示:
加入档案:
ClientId,ClientName,ClientAge,date,purchaseItem,purchaseAmount
Id1,"SomeName","SomeAge",01/01/2012,Car,12000
Id1,"SomeName","SomeAge",01/02/2012,Coffee,4
我需要为每个文件夹执行此操作,然后将此连接的数据集输入 HDFS。有人可以指出我如何能够在 Hadoop 中实现这样的目标。朝着正确的方向推动将不胜感激。