hadoop - Hadoop 转换和加载分层文本文件

翻译自：https://stackoverflow.com/questions/19549044 2013-10-23T17:59:42.590

148 次

我有分号分隔的文件，其中包含以下格式的分层数据：

ParentRecord;field1;field3;field4;...;fieldN;
ChildRecordType1;field1;field3;field4;...;fieldN;
...
ChildRecordType3;field1;field3;field4;field5;field6;...;fieldN;
ChildRecordType3;field1;field3;field4;field5;field6;...;fieldN;
...
ChildRecordTypeN;field1;field3;field4;...;fieldN;

所以每个文件可能有多个父记录，每个记录可以包含 N 个子记录。

所以我想要完成的是读取父子记录块并将它们转换为 Hadoop 友好格式。

我可以通过实现自定义 FileInputFormat 和自定义 RecordReader 来实现这一点吗？我正在尝试查找示例，但所有示例都导致 LineRecord 阅读器，这不是我想要完成的

hadoop - Hadoop 转换和加载分层文本文件

0 回答 0

Related

Reference