我有一个 gcs 文件夹如下:
gs://<bucket-name>/<folder-name>/dt=2017-12-01/part-0000.tsv
/dt=2017-12-02/part-0000.tsv
/dt=2017-12-03/part-0000.tsv
/dt=2017-12-04/part-0000.tsv
...
我只想匹配Scio下dt=2017-12-02
和dt=2017-12-03
使用的文件,据我所知,它在下面使用。sc.textFile()
TextIO.Read.from()
我试过了
gs://<bucket-name>/<folder-name>/dt={2017-12-02,2017-12-03}/*.tsv
和
gs://<bucket-name>/<folder-name>/dt=2017-12-(02|03)/*.tsv
两者都匹配零文件:
INFO org.apache.beam.sdk.io.FileBasedSource - Filepattern gs://<bucket-name>/<folder-name>/dt={2017-12-02,2017-12-03}/*.tsv matched 0 files with total size 0
INFO org.apache.beam.sdk.io.FileBasedSource - Filepattern gs://<bucket-name>/<folder-name>/dt=2017-12-(02|03)/*.tsv matched 0 files with total size 0
这样做的有效文件模式应该是什么?