python-2.7 - 具有大型地理空间数据集的数据科学工作流程

翻译自：https://stackoverflow.com/questions/44799642 2017-06-28T10:13:48.967

203 次

我对 docker 方法比较陌生，所以请多多包涵。

目标是使用开源可复制方法将大型地理空间数据集摄取到Google 地球引擎。我让所有东西都在我的本地机器和谷歌计算引擎上运行，但也想让其他人也可以使用这种方法。

大型静态地理空间文件 (NETCDF4) 当前存储在 Amazon S3 和 Google Cloud Storage (GEOTIFF) 上。我需要几个基于 python 的模块来使用命令行界面将数据转换并摄取到 Earth Engine 中。这必须只发生一次。数据转换不是很繁重，一个胖实例就可以完成（32GB RAM，16核需要2小时），不需要集群。

我的问题是我应该如何处理 Docker 中的大型静态数据集。我想到了以下选项，但想知道最佳实践。

1) 使用 docker 并将 amazon s3 和 Google Cloud Storage 存储桶安装到 docker 容器。

2) 将大型数据集复制到 docker 映像并使用 Amazon ECS

3) 只需使用 AWS CLI

4) 在 Python 中使用 Boto3

5）我还不知道的第五个选项

我使用的python模块是ao：python-GDAL、pandas、earth-engine、subprocess

python-2.7 - 具有大型地理空间数据集的数据科学工作流程

0 回答 0

Related

Reference