我有分号分隔的文件,其中包含以下格式的分层数据:
ParentRecord;field1;field3;field4;...;fieldN;
ChildRecordType1;field1;field3;field4;...;fieldN;
...
ChildRecordType3;field1;field3;field4;field5;field6;...;fieldN;
ChildRecordType3;field1;field3;field4;field5;field6;...;fieldN;
...
ChildRecordTypeN;field1;field3;field4;...;fieldN;
所以每个文件可能有多个父记录,每个记录可以包含 N 个子记录。
所以我想要完成的是读取父子记录块并将它们转换为 Hadoop 友好格式。
我可以通过实现自定义 FileInputFormat 和自定义 RecordReader 来实现这一点吗?我正在尝试查找示例,但所有示例都导致 LineRecord 阅读器,这不是我想要完成的