我正在尝试将上传的 zip 文件解压缩到 Cloud Storage,其中仅包含图像文件,其中没有任何其他文件夹。
我可以使用云功能做到这一点,但是当文件变大时,我似乎会遇到与内存相关的问题。我为这个特定案例找到了数据流模板(批量解压缩云存储文件),并尝试运行一些类似于以下参数的作业。
{
"jobName": "unique_job_name",
"environment": {
"bypassTempDirValidation": false,
"numWorkers": 2,
"tempLocation": "gs://bucket_name/temp",
"ipConfiguration": "WORKER_IP_UNSPECIFIED",
"additionalExperiments": []
},
"parameters": {
"inputFilePattern": "gs://bucket_name/root_path/zip_to_extract.zip",
"outputDirectory": "gs://bucket_name/root_path/",
"outputFailureFile": "gs://bucket_name/root_path/failure.csv"
}
}
作为输出,我只得到 1 个与我的 zip 文件同名的文件,没有文件扩展名,并且类型为 text/plain。
这是预期的行为吗?如果有人可以帮助我使用 Dataflow 解压缩文件,我会很高兴。
谢谢