我正在通过烫伤、聚合某些字段以及通过 TSV 写入制表符分隔的文件来读取 HDFS 上的文件。如何写出包含输出文件架构的文件?例如,
UnpackedAvroSource(args("input"))
.project('key, 'var1)
.groupBy('key){_.sum[Long]('var1 -> var1sum))}
.write(Tsv(args("output")))
我想编写一个包含“Key, var1sum”的输出文本文件,以后拿起我的 ooutput 文件的人知道这些列是什么。我假设烫伤不会将它嵌入到文件中的某个地方?
谢谢。