2

我有一个匹配的 GCS 文件名的 PCollection,每个文件名都包含一个压缩的 JSON blob。读取整个文件、解压缩(Gzip 格式)和 JSON 解码的最佳方法是什么?

  • TextIO 非常接近,但每行读取数据。
  • GCS API 提供了如何读取整个文件的示例,但它不处理解压缩,并导致我重新实现许多核心功能。

是否有任何现有的 API 和/或示例可以让我领先一步?似乎这将是一个非常常见的用例。

4

1 回答 1

2

这在 Dataflow 中不受本机支持。要完成从文件中读取 JSON blob,您可以实现 FileBasedSource:

https://cloud.google.com/dataflow/java-sdk/JavaDoc/com/google/cloud/dataflow/sdk/io/FileBasedSource

如果这足以开始,我们可以继续使用更多信息更新此答案。

于 2015-04-03T19:32:25.797 回答