1

我正在通过烫伤、聚合某些字段以及通过 TSV 写入制表符分隔的文件来读取 HDFS 上的文件。如何写出包含输出文件架构的文件?例如,

UnpackedAvroSource(args("input"))
  .project('key, 'var1)
  .groupBy('key){_.sum[Long]('var1 -> var1sum))}
  .write(Tsv(args("output")))

我想编写一个包含“Key, var1sum”的输出文本文件,以后拿起我的 ooutput 文件的人知道这些列是什么。我假设烫伤不会将它嵌入到文件中的某个地方?

谢谢。

4

1 回答 1

2

刚刚找到选项 writeHeader = true ,它将列名写入输出文件,无需写入文件。

于 2014-12-15T19:24:58.777 回答