2

我正在尝试使用谷歌云数据流从 GCS 读取数据并加载到 BigQuery 表,但是 GCS 中的文件是压缩的(gzip),是否有任何类可用于从压缩/gzip 压缩文件中读取数据?

4

1 回答 1

6

Dataflow 现在支持从压缩文本源中读取(截至本次提交)。具体来说,可以通过指定压缩类型来读取使用 gzip 和 bzip2 压缩的文件:

TextIO.Read.from(myFileName).withCompressionType(TextIO.CompressionType.GZIP)

但是,如果文件具有 .gz 或 .bz2 扩展名,您无需执行任何操作:默认压缩类型为 AUTO,它检查文件扩展名以确定文件的正确压缩类型。这甚至适用于 glob,其中由 glob 生成的文件可能是 .gz、.bz2 和未压缩的混合文件。

于 2015-02-06T20:24:15.790 回答