我是 hadoop map reduce 框架的新手,我正在考虑使用 hadoop map reduce 来解析我的数据。我有数千个大的分隔文件,我正在考虑编写一个 map reduce 作业来解析这些文件并将它们加载到 hive 数据仓库中。我在 perl 中编写了一个解析器,可以解析这些文件。但我坚持对 Hadoop map reduce 做同样的事情
例如:我有一个像 x=ay=bz=c..... x=py=qz=s..... x=1 z=2 .... 这样的文件
现在我必须将此文件作为 hive 表中的列 (x,y,z) 加载,但我无法弄清楚我是否可以继续它。任何与此相关的指导都会非常有帮助。
这样做的另一个问题是有些文件缺少字段 y。我必须在 map reduce 作业中包含该条件。到目前为止,我已经尝试使用 streaming.jar 并将我的 parser.pl 作为映射器作为该 jar 文件的输入。我认为这不是这样做的方法:),但我只是在尝试是否可行。另外,我想过使用 Hive 的加载功能,但是如果我在 hive 表中指定 regexserde,缺少的列会产生问题。
我现在迷失了,如果有人可以指导我,我将不胜感激:)
问候, 阿图尔