我是 apache crunch 的新手,正在寻找在 apache crunch 中读写 Parquet 文件。我遵循了文档和 API,但没有得到直接的方法/方法来做同样的事情。
PCollection<String> pipeLine = MemPipeline.collectionOf("Pineapple", "Banana", "Orange");
PCollection<Integer> b = pipeLine.parallelDo(new DoFn<String, Integer>() {
private static final long serialVersionUID = 1L;
@Override
public void process(String input, Emitter<Integer> emitter) {
emitter.emit(input.length());
}
}, ints());
b.write(new AvroParquetFileTarget("D:\\Tutorials\\CCP_WorkSpace\\Crunch\\resources\\output"));
提前致谢。