这是我到目前为止所做的,我很难找出回归线。
- 在开始之前,我们要生成两个表。一个用于 2002 年,另一个用于 1999-2001 赛季的平均值。我们要定义每个板的外观统计数据。这是我们创建 2017 表的方法。只保留出场次数超过 100 次的球员。现在计算一个类似的表,但计算的比率是 1999-2001 年的。
library(Lahman)
data("Batting")
avg <- Batting %>% filter(yearID %in% 1999:2001) %>%
mutate(pa = AB + BB,
avg_singles = (H - X2B - X3B - HR) / pa, avg_bb = BB / pa) %>%
filter(pa >= 100) %>%
select(playerID, avg_singles, avg_bb)
dat <- Batting %>% filter(yearID == 2002) %>%
mutate(pa = AB + BB,
singles = (H - X2B - X3B - HR) / pa, bb = BB / pa) %>%
filter(pa >= 100) %>%
select(playerID, singles, bb)
- 计算 2002 年与前几季的单打和 BB 之间的相关性。
dat <- inner_join(dat, avg, by = "playerID")
rdat <- dat %>%
summarise(singles_r = cor(singles,avg_singles ), bb_r = cor(bb, avg_bb ))
rdat
- 请注意,BB 的相关性更高。为了快速了解与此相关估计相关的不确定性,我们将拟合线性模型并计算斜率系数的置信区间。但是,首先制作散点图以确认拟合线性模型是合适的。
library(ggplot2)
dat %>%
ggplot(aes(singles,avg_singles))+
geom_point(alpha = 0.5)
dat %>%
ggplot(aes(bb,avg_bb))+
geom_point(alpha = 0.5)
- 现在为每个指标拟合一个线性模型,并使用 confint 函数来比较估计值。