我有三个 GeoTIFF,每个在 AWS 的 S3 上大小约为 500 MB,我正在尝试使用 Dask 在 EMR 集群上处理它们,但在处理第一个 tiff 后我得到了 MemoryError。
使用 读取 GeoTIFF 后xarray.open_rasterio()
,我将网格值转换为布尔值,然后将数组乘以浮点值。此工作流程已在三个 50 MB 大小的 GeoTIFF 上成功执行。此外,我在使用 xarray 读取时尝试使用分块,但得到了相同的结果。
Dask 是否有大小限制或我可能遇到的其他问题?