我正在使用Spotify Scio读取从 Stackdriver 导出到 Google Cloud Storage 的日志。它们是 JSON 文件,其中每一行都是一个条目。查看工作日志,文件似乎被分成块,然后以任何顺序读取。在这种情况下,我已经将我的工作限制为 1 名工人。有没有办法强制按顺序读取和处理这些块?
举个例子(textFile 基本上是一个 TextIO.Read):
val sc = ScioContext(myOptions)
sc.textFile(myFile).map(line => logger.info(line))
将根据工作日志产生与此类似的输出:
line 5
line 6
line 7
line 8
<Some other work>
line 1
line 2
line 3
line 4
<Some other work>
line 9
line 10
line 11
line 12
我想知道的是是否有办法强制它按顺序读取第 1-12 行。我发现压缩文件并使用指定的 CompressionType 读取它是一种解决方法,但我想知道是否有任何方法可以做到这一点,而不涉及压缩或更改原始文件。