2

我对 docker 方法比较陌生,所以请多多包涵。

目标是使用开源可复制方法将大型地理空间数据集摄取到Google 地球引擎。我让所有东西都在我的本地机器和谷歌计算引擎上运行,但也想让其他人也可以使用这种方法。

大型静态地理空间文件 (NETCDF4) 当前存储在 Amazon S3 和 Google Cloud Storage (GEOTIFF) 上。我需要几个基于 python 的模块来使用命令行界面将数据转换并摄取到 Earth Engine 中。这必须只发生一次。数据转换不是很繁重,一个胖实例就可以完成(32GB RAM,16核需要2小时),不需要集群。

我的问题是我应该如何处理 Docker 中的大型静态数据集。我想到了以下选项,但想知道最佳实践。

1) 使用 docker 并将 amazon s3 和 Google Cloud Storage 存储桶安装到 docker 容器。

2) 将大型数据集复制到 docker 映像并使用 Amazon ECS

3) 只需使用 AWS CLI

4) 在 Python 中使用 Boto3

5)我还不知道的第五个选项

我使用的python模块是ao:python-GDAL、pandas、earth-engine、subprocess

4

0 回答 0