我有一个包含一些地球物理数据(地震数据)的文件,我正在从本地文件系统中读取这些文件并将它们作为 Hadoop Sequential 文件存储在 HDFS 中。
现在我想编写一个 MapReduce 作业,它可以从这些 Sequential 文件中读取值并将它们存储到 HBase 表中。这些文件不仅仅是平面文件。相反,它们由许多片段组成,其中每个片段是一个 240 字节的块,并具有多个字段。每个字段可以是短整数或整数。我使用块号作为键,使用 240 字节的字节数组(包含所有字段)作为顺序文件的值。所以每个顺序文件都有所有的块作为字节数组和它们的块号。
我的问题是,在处理这样的文件时,如何读取每个 240 字节块,读取单个字段并在完成 240 字节块后一次性发出所有字段?假设我有一个包含 1000 个块的文件。所以在我的 MapReduce 程序中,我必须一次读取这 1000 个块,提取每个字段(short 或 int)并发出所有字段作为一个 Map 的结果。
我需要一些帮助,关于这个。