hadoop - PIG UDF 处理多行元组拆分成不同的映射器

Question

我有每个元组跨越多行的文件，例如：

START
name: Jim
phone: 2128789283
address: 56 2nd street, New York, USA
END
START
name: Tom
phone: 6308789283
address: 56 5th street, Chicago, 13611, USA
END
.
.
.

所以上面是我文件中的 2 个元组。我编写了我的 UDF，它定义了一个getNext()检查它是否为 START 的函数，然后我将初始化我的元组；如果是 END 那么我将返回元组（来自字符串缓冲区）；否则我只会将字符串添加到字符串缓冲区。

它适用于文件大小小于 64 MB 的 HDFS 块大小（在 Amazon EMR 上），而对于大于此的大小它将失败。我试着用谷歌搜索，找到这篇博文。Raja 的解释很容易理解，他提供了一个示例代码。但是代码正在实现该RecordReader部分，而不是getNext()用于 pig LoadFunc。只是想知道是否有人有处理多行猪元组拆分问题的经验？我应该继续RecordReader在 Pig 中实施吗？如果是这样，怎么做？

谢谢。

score 1 · Accepted Answer

您可以像Guy提到的那样预处理您的输入，或者可以应用此处描述的其他技巧。

我认为最干净的解决方案是实现一个自定义InputFormat（连同它的 RecordReader），它创建一个记录/START-END。Pig 的LoadFunc位于 Hadoop 的 InputFormat 之上，因此您可以定义您的 LoadFunc 将使用的 InputFormat。
自定义 LoadFunc 的原始骨架实现如下所示：

import java.io.IOException;
import org.apache.hadoop.mapreduce.InputFormat;
import org.apache.hadoop.mapreduce.Job;
import org.apache.hadoop.mapreduce.RecordReader;
import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;
import org.apache.hadoop.mapreduce.lib.input.TextInputFormat;
import org.apache.pig.LoadFunc;
import org.apache.pig.backend.hadoop.executionengine.mapReduceLayer.PigSplit;
import org.apache.pig.data.Tuple;
import org.apache.pig.data.TupleFactory;

public class CustomLoader extends LoadFunc {

    private RecordReader reader;
    private TupleFactory tupleFactory;

    public CustomLoader() {
        tupleFactory = TupleFactory.getInstance();
    }

    @Override
    public InputFormat getInputFormat() throws IOException {
        return new MyInputFormat(); //custom InputFormat
    }

    @Override
    public Tuple getNext() {
        Tuple result = null;
        try {
            if (!reader.nextKeyValue()) {
                return null;
            }
            //value can be a custom Writable containing your name/value 
            //field pairs for a given record
            Object value = reader.getCurrentValue();
            result = tupleFactory.newTuple();
            // ...
            //append fields to tuple
        }
        catch (Exception e) {
            // ...
        }
        return result;
    }

    @Override
    public void prepareToRead(RecordReader reader, PigSplit pigSplit) 
      throws IOException {
        this.reader = reader;
    }

    @Override
    public void setLocation(String location, Job job) throws IOException {
        FileInputFormat.setInputPaths(job, location);
    }
}

在LoadFunc初始化InputFormat和 its之后RecordReader，它会定位数据的输入位置并开始从 recordReader 获取记录，创建结果元组（getNext()）直到输入被完全读取。

关于自定义 InputFormat 的一些说明：

我将创建一个自定义 InputFormat，其中 RecordReader 是以下的修改版本 org.apache.hadoop.mapreduce.lib.input.LineRecordReader：大多数方法将保持不变，除了initialize()：它将调用自定义 LineReader（基于org.apache.hadoop.util.LineReader）。InputFormat 的键是行偏移量（Long），值是自定义的 Writable。这会将记录的字段（即 START-END 之间的数据）保存为键值对列表。每次nextKeyValue()调用 RecordReader 时，LineReader 都会将记录写入自定义 Writable。整个事情的要点是你如何实现 LineReader.readLine()。

另一种可能更简单的方法是将 TextInputFormat 的分隔符（在 Hadoop 0.23 中可配置，请参阅参考资料textinputformat.record.delimiter）更改为适合您的数据结构的分隔符（如果可能的话）。在这种情况下，您最终将获得Text需要从中拆分和提取 KV 对并放入元组的数据。

score 0 · Accepted Answer

如果可以将 start 作为分隔符，则下面的代码可能在没有 UDF 的情况下工作

SET textinputformat.record.delimiter 'START';
a  =  load  '<input path>' as  (data:chararray);
dump a;

输出看起来像：

    (
    name: Jim
    enter code here`phone: 2128789283
    address: 56 2nd street, New York, USA
    END
    )

    (
    name: Tom
    phone: 6308789283
    address: 56 5th street, Chicago, 13611, USA
    END
    )

现在两者都被分成两个元组。

hadoop - PIG UDF 处理多行元组拆分成不同的映射器

2 回答 2

Related

Reference