我对 docker 方法比较陌生,所以请多多包涵。
目标是使用开源可复制方法将大型地理空间数据集摄取到Google 地球引擎。我让所有东西都在我的本地机器和谷歌计算引擎上运行,但也想让其他人也可以使用这种方法。
大型静态地理空间文件 (NETCDF4) 当前存储在 Amazon S3 和 Google Cloud Storage (GEOTIFF) 上。我需要几个基于 python 的模块来使用命令行界面将数据转换并摄取到 Earth Engine 中。这必须只发生一次。数据转换不是很繁重,一个胖实例就可以完成(32GB RAM,16核需要2小时),不需要集群。
我的问题是我应该如何处理 Docker 中的大型静态数据集。我想到了以下选项,但想知道最佳实践。
1) 使用 docker 并将 amazon s3 和 Google Cloud Storage 存储桶安装到 docker 容器。
2) 将大型数据集复制到 docker 映像并使用 Amazon ECS
3) 只需使用 AWS CLI
4) 在 Python 中使用 Boto3
5)我还不知道的第五个选项
我使用的python模块是ao:python-GDAL、pandas、earth-engine、subprocess