从这里下载 shapefile https://catalog.data.gov/dataset/tiger-line-shapefile-2019-2010-nation-us-2010-census-5-digit-zip-code-tabulation-area-zcta5-na
使用 GDAL 进行简化
我们可以使用 GDAL 库中的 ogr2ogr 命令将 shapefile 转换为 geojson,但即使只有一个字段和简单的坐标,输出文件也超过 1GB。
ogr2ogr -f GeoJSON -select ZCTA5CE10 -lco COORDINATE_PRECISION=6 zcta.geojson /vsizip/tl_2017_us_zcta510.zip
我试图将其简化为 topojson,但即使在功能非常强大的 2017 MacBook Pro 上,topojson 库也会对此感到窒息。
npx topojson -q 1e4 -o zcta_topo.json zcta.geojson
>> JavaScript 内存不足
我尝试的另一种方法是在 ogr2ogr 中使用 -simplify 选项。简化参数是基于 shapefile 的空间参考系统的测量单位。由于 ZCTA 的 srs 是 WGS84,因此单位是纬度/经度度量。
ogr2ogr -f "GeoJSON" -lco COORDINATE_PRECISION=6 -select ZCTA5CE10 -simplify 0.006 zcta.geojson /vsizip/tl_2017_us_zcta510.zip
这将创建一个更小的 GeoJSON 文件 (30MB),TopoJSON 可以轻松处理它,我们最终得到一个更易于管理(但仍然太大)的 13MB topojson 文件。此外,数据集的拓扑结构在中到大尺度上非常差。
npx topojson -q 1e5 -o zcta_topo.json zcta.geojson
使用 Postgis 进行简化
创建一个 docker 卷以用于持久性 docker volume create postgresql
运行 postgis 泊坞窗
docker run --name postgis -p 25432:5432 -it --mount source=postgresql,target=/var/lib/postgresql kartoza/postgis
将 zcta shapefile 加载到 postgis
ogr2ogr -f "PostgreSQL" -progress -select "ZCTA5CE10" -overwrite -lco OVERWRITE=yes -nln zcta -nlt PROMOTE_TO_MULTI -t_srs "EPSG:4326" PG:"dbname='gis' host='localhost' port='25432' user='docker' password='docker'" ~/Downloads/tl_2017_us_zcta510/tl_2017_us_zcta510.shp
使用 st_simplifypreservetopology(新英格兰)的示例查询。这需要很长时间才能运行到整个国家,而且我们仍然会丢失很多拓扑。
select st_simplifypreservetopology(wkb_geometry, 0.025) as thegeom, zcta5ce10 from zcta where zcta5ce10 like '0%' OR zcta5ce10 like '1%'
使用 Mapshaper 进行简化(最佳解决方案)
Mapshaper 库可以直接从 shapefile 输出 TopoJSON,而不会出现 JavaScript 内存堆错误。这个命令创建了一个我们可以使用的 ~6MB topojson 文件。通过假设非常接近的顶点和边应该重合,它还设法很好地保持拓扑。
npx -p mapshaper mapshaper-xl tl_2017_us_zcta510.shp snap -simplify 0.1% -filter-fields ZCTA5CE10 -rename-fields zip=ZCTA5CE10 -o format=topojson zcta_mapshaper.json
来源:https ://github.com/elastic/ems-file-service/issues/6