1

我的用例是我在一个不断更新新文件的存储桶中批处理文件。我不想处理已经处理过的 csv 文件。

有没有办法做到这一点?

我想到的一个可能的解决方案是有一个文本文件来维护已处理文件的列表,然后读取除已处理列表中的文件之外的所有 csv 文件。那可能吗?

或者是否可以读取特定文件的列表?

4

1 回答 1

1

没有一种好的内置方法可以做到这一点,但您可以在管道的一个阶段按照您的建议计算要读取的文件列表,使用将文件名映射到文件内容的 DoFn。有关如何编写此 DoFn 的信息,请参阅读取多个 .gz 文件并识别哪一行属于哪个文件

于 2016-09-20T22:34:17.977 回答