0

当每个文件的架构可能是 N 个不同架构之一时,如何从 Avro 文件构造 PCollection?

我们只想指定一个匹配所有 avro 文件的 glob 路径,并且我们想使用单个 Avro 源而不是为每个文件构建一个新的 Avro 源?

4

1 回答 1

1

一种简单的方法是使用 Avro 源并指定一个模式,该模式是所有此类文件的联合。这将产生一个 PCollection,其中记录是 GenericReccords,其架构是所有不同架构的联合。然后,您可以应用 ParDo 操作以将它们转换为您想要的任何表示。

这是一个完整的例子

于 2015-01-15T05:54:59.750 回答