我有一个 2012 年的德国数据框,其中 8187 行包含 8187 个邮政编码(大约 10 个变量列为列),但没有坐标。此外,我还获得了具有 8203 行的不同 shapefile 的坐标(还包括几乎相同的邮政编码)。
我需要将 8203 个案例的正确坐标分配给初始数据帧的 8178 个案例。
问题:所需正确分配的差异不是 8178 缺少 16 个案例(8203 - 8187 = 16),而是更多。2012 年的一些城镇(带有邮政编码)未在最近的 shapefile 中列出,反之亦然。
(I) 也许最简单的解决方案是获取 2012 年的坐标(未投影:)CRS("+init=epsg:4326")
。--> 有人知道为此目的的开源平台吗?他们有确切的 8187 邮政编码吗?
(II)或者:有没有人有将坐标分配给不同年份的数据集的经验?- 或者,是否应该以任何方式避免这种情况,因为边界和坐标略有变化(尤其是当数据应该在 2012 年的多边形中进行映射和可视化时)以及一些未在较旧的“和”数据集中列出的城镇?
感谢您就如何处理(并希望解决)这个问题的专家建议!
编辑-MWE:
# data set from 2012
> df1
# A tibble: 9 x 4
ID PLZ5 Name Var1
<dbl> <dbl> <chr> <dbl>
1 1 1067 Dresden 01067 40
2 2 1069 Dresden 01069 110
3 224 4571 Rötha 0
4 225 4574 Deutzen 120
5 226 4575 Neukieritzsch 144
6 262 4860 Torgau 23
7 263 4862 Mockrehna 57
8 8186 99996 Menteroda 0
9 8187 99998 Körner 26
# coordinates of recent shapefile
> df2
# A tibble: 9 x 5
ID PLZ5 Name Longitude Latitude
<dbl> <dbl> <chr> <dbl> <dbl>
1 1 1067 Dresden-01067 13.71832 51.06018
2 2 1069 Dresden-01069 13.73655 51.03994
3 224 4571 Roetha 12.47311 51.20390
4 225 4575 Neukieritzsch 12.41355 51.15278
5 260 4860 Torgau 12.94737 51.55790
6 261 4861 Bennewitz 13.00145 51.51125
7 262 4862 Mockrehna 12.83097 51.51125
8 8202 99996 Obermehler 10.59146 51.28864
9 8203 99998 Koerner 10.55294 51.21257
因此,
4 225 4574 Deutzen 120
--> 未在 df2 中列出,并且:
6 261 4861 Bennewitz 13.00145 51.51125
--> 未在 df1 中列出。
关于(I)和(II)的任何想法?