我有一个匹配的 GCS 文件名的 PCollection,每个文件名都包含一个压缩的 JSON blob。读取整个文件、解压缩(Gzip 格式)和 JSON 解码的最佳方法是什么?
- TextIO 非常接近,但每行读取数据。
- GCS API 提供了如何读取整个文件的示例,但它不处理解压缩,并导致我重新实现许多核心功能。
是否有任何现有的 API 和/或示例可以让我领先一步?似乎这将是一个非常常见的用例。
我有一个匹配的 GCS 文件名的 PCollection,每个文件名都包含一个压缩的 JSON blob。读取整个文件、解压缩(Gzip 格式)和 JSON 解码的最佳方法是什么?
是否有任何现有的 API 和/或示例可以让我领先一步?似乎这将是一个非常常见的用例。
这在 Dataflow 中不受本机支持。要完成从文件中读取 JSON blob,您可以实现 FileBasedSource:
https://cloud.google.com/dataflow/java-sdk/JavaDoc/com/google/cloud/dataflow/sdk/io/FileBasedSource
如果这足以开始,我们可以继续使用更多信息更新此答案。