r - R 每个多边形 Choroplethr 的多个值

Question

我有以下问题，不知道如何处理：

我想做一个等值线热图，其中包含有关德国风力发电厂的数据。因此我使用一个形状文件，映射所有德国邮政编码（工作正常）。

第二个数据框包含德国所有新安装的风力发电厂。我想展示一下，随着时间的推移，哪个 ZIP 区域的装机容量最高。

当我尝试在包中执行此操作时choroplethr，我遇到了一个问题，即在带有发电厂的数据框中，大约有 1000000 行，因此有几个邮政编码重复（很多邮政编码包含不止一个风力发电厂。 ..)。

因此，我收到以下错误消息：

anyDuplicated(self$user.df$region) == 0 is not TRUE

这是代码。它基于此示例：https ://www.r-bloggers.com/case-study-mapping-german-zip-codes-in-r/

library(sf)
library(choroplethr)
library(dplyr)
library(ggplot2)
library(rgdal)
library(maptools)
library(gpclib)
library(readr)
library(R6)

ger_plz <- readOGR(dsn = ".", layer = "plz-5stellig")
ger_plz2 <- read_sf("...plz-5stellig.shp")

ger_plz@data$id <- rownames(ger_plz@data)
ger_plz.point <- fortify(ger_plz, region="id")
ger_plz.df <- inner_join(ger_plz.point,ger_plz@data, by="id")

BNETZAVZ <-read.csv2("WindPower DATA.csv", 
                      header = TRUE, sep = ";", dec = ",")
BNETZAVZ_k <- subset(BNETZAVZ, inst_leistung >= 100 & energietraeger >= "7" & energietraeger<="8" & stat_Relevanz=="1",
                     select=c(anlagenschl, plz, inst_leistung, spannungsebene, inbetriebnahme, ausserbetriebnahme, regelzone_name, energietraeger))
#BNETZAVZ_k$inbetriebnahme <- dmy_hms(as.character(BNETZAVZ$inbetriebnahme))
print(BNETZAVZ_k$plz)
# Datum funktioniert so::)
BNETZAVZ_k$inbetriebnahme <- as.Date(BNETZAVZ_k$inbetriebnahme, format = "%d.%m.%Y %H:%M:%S")
BNETZAVZ_k2000 <- subset(BNETZAVZ_k, inbetriebnahme >="2000-01-01")

# variable name 'region' is needed for choroplethr
ger_plz.df$region <- ger_plz.df$plz
#subclass choroplethr to make a class for your my need
GERPLZChoropleth <- R6Class("GERPLZChoropleth",
                            inherit = choroplethr:::Choropleth,
                            public = list(
                              initialize = function(user.df) {
                                super$initialize(ger_plz.df, user.df)
                              }
                            )
)
#choropleth needs these two columnames - 'region' and 'value'
colnames(BNETZAVZ_k2000) [1] <- "EEG-key"
colnames(BNETZAVZ_k2000) [2] <- "region"
colnames(BNETZAVZ_k2000)[3] <- "value"
BNA <- data.frame(BNETZAVZ_k2000$region, BNETZAVZ_k2000$value)
colnames(BNA) = c("region", "value")
#instantiate new class with data
c <- GERPLZChoropleth$new(BNA)

# 错误信息显示在上面的行中...

 #plot the data
    c$ggplot_polygon = geom_polygon(aes(fill = value), color = NA)
    c$title = "Capacity Windkraft BNETZA"
    c$legend= "Capacity per Zipcode"
    c$set_num_colors(9)
    c$render()

score 2 · Accepted Answer

我是 choroplethr 的作者，不幸的是我在理解你的问题时遇到了一些困难。但是，我认为您问题的关键部分是：

我想展示一下，随着时间的推移，哪个 ZIP 区域的装机容量最高。

我不知道“随着时间的推移最高装机容量”的确切含义，或者该值是如何从您拥有的数据中得出的。

但是 choroplethr 要求您的数据采用非常特殊的格式：

具有一列称为region一列的数据框value。
中的每个值region都应与 shapefile 中的区域匹配。

在幕后 choroplethr 将您的数据框与 shapefile 合并。如果您的数据包含重复区域，则无法进行合并，因为您要使用的值不明确。

通过阅读您的问题，我不确定您的情况。但我认为您可能希望处理您的数据，以便每个区域出现一次，并且该值是您谈论的两个文件的某些功能。

但是，为了完整起见，我会提到您至少有可能尝试创建一个双变量 choropleth。Choropleth 目前没有该功能。

r - R 每个多边形 Choroplethr 的多个值

1 回答 1

Related

Reference