我有一个巨大的 LPF(长度前缀文件)要由 Hadoop 处理。
LPF 文件的格式为:(第 1 条记录的大小,4 字节)(第 1 列的大小,2 字节)(第 1 列)(第 2 列的大小)(第 2 列)………….(第 n 列的大小)(第 n 列)(第二条记录的大小)(第一列的大小)(第一列)…………以此类推……
但是,似乎没有合适的 InputFormat 可用于读取各个记录,因为没有分隔符来分隔各个记录或列。
输入拆分必须发生在其中一个记录的末尾,以便在其他某个块中不存在半记录。否则,记录阅读器必须知道一半记录的结尾,以便它可以将它与另一半连接起来。请提出一些读取和处理 LPF 文件的方法